J. Chem. Inf. Model. | ChatGPT 生成的内容与化学领域数据相似性指数

编译 | 曾全晨

审稿 | 王建民

今天为大家介绍的是来自 Deep Kumar Kirtania的一篇论文。

近年来，自然语言处理和机器学习的进步导致了像ChatGPT这样功能强大的语言模型的发展。这些基于GPT-3.5架构的模型旨在理解和生成类似人类的文本响应。尽管这些模型已广泛用于各种应用，但它们在化学领域及其子领域的潜力仍未得到充分探索。通过利用该领域中丰富的知识和数据，ChatGPT有潜力帮助研究人员、学生和专业人员获取相关信息、解决问题并促进科学交流。ChatGPT有可能彻底改变我们在化学及其子学科领域中获取和互动科学知识的方式。生成的内容可以涵盖有机化学、无机化学、分析化学、物理化学、生物化学等广泛的主题领域。已经有一些关于化学和ChatGPT的论文发表，例如药物发现、教学学习、计算化学等。ChatGPT可以用于快速、易于访问地提供有关化学各个方面的信息，可能成为研究人员、学生和专业人员的宝贵工具。此外，ChatGPT可以用更简单的语言解释化学概念，帮助学生更好地理解复杂的主题，可能有助于解决问题。ChatGPT适用于多样的数据集，包括科学交流，从而可以使用与化学相关的技术术语和行话，有助于生成与特定查询相关的上下文相关响应。因此，评估ChatGPT在化学领域生成的内容的准确性和可靠性需要适当的评估方法，以衡量生成内容的质量，如检查其相似性。因此，作者研究的目标是调查ChatGPT在生成与化学相关的内容方面的能力，并检查相似性指数以评估生成响应的质量和准确性。

方法使用

J. Chem. Inf. Model. | ChatGPT 生成的内容与化学领域数据相似性指数

表 1

首先，通过三种标准且全球知名的受控词汇工具，如杜威十进分类法（DDC）系统、西尔斯主题标题列表和美国国会图书馆主题标题（LCSH），选择了化学及其相关学科。利用这些工具，在排除重复或常见学科的情况下，共选择了20个较大的学科用于研究（学科按字母顺序列于表1中）。随后捕捉每个术语，通过ChatGPT生成内容，然后使用三种主要的抄袭检测软件来检查该内容，以找到相似性指数。最后，通过表格分析相似性检查或抄袭报告，得出研究结果和结论。

实验结果

J. Chem. Inf. Model. | ChatGPT 生成的内容与化学领域数据相似性指数

表2

表2呈现了用于检查不同来源相似性的软件程序的表格列表。

（I）iThenticate显示相似性指数为12%，表明ChatGPT生成的约12%内容与现有来源具有相似之处。在检查的168个段落中，有75个段落被发现具有匹配内容，而93个段落没有任何匹配的内容。

（II）Urkund显示较低的相似性指数为1%，表明ChatGPT生成的内容与现有来源之间具有最小的相似之处。在168个段落中，只有23个段落被发现具有匹配内容，而大多数段落（145个）没有显示任何匹配的内容。

（III）Turnitin报告相似性指数为5%，表明ChatGPT生成的内容与现有来源之间存在适度的相似之处。在168个段落中，有37个段落被确定为匹配内容，而131个段落没有显示任何相似性。

（IV）Subject-wise分析（见表1）提供了关于ChatGPT生成内容与不同化学领域现有来源之间相似性的见解。这些抄袭软件获得的结果表明，ChatGPT生成的内容与现有来源之间的相似性程度各不相同。与Urkund相比，iThenticate和Turnitin显示出较高的相似性指数。主题领域的观察显示，具有更多发表文献的化学子领域显示出较高的相似性指数。相反，化学的较不传统的子学科，如农业化学、生物化学、植物化学、临床化学、微化学，或者发表文献较少的子学科，显示出较低的相似性指数得分。

从相似性指数的来源可以看出，ChatGPT生成的内容主要依赖于互联网资源，包括各种类型的网站。值得注意的是，抄袭检测报告表明，相似之处主要存在这些在线资源的句子和段落中。ChatGPT有时倾向于直接从输入查询或提示中提取信息，这可能导致文本重叠，因为ChatGPT适用于广泛的文本范围，包括技术和科学出版文献，这可能会影响其回答。需要注意的是，这些百分比只提供了相似性的定量测量，进一步的分析需要确定匹配的性质和上下文。

主要发现

（一）不同化学领域的相似性指数有所不同。一些领域显示较高的相似性指数，表明存在更多的匹配内容，而其他领域则显示较低的相似性，表明与现有来源的相似性较小。

（二）在所分析的领域中，有机化学在所有三个抄袭检测软件中显示出最高的相似性指数，iThenticate报告有七个匹配的段落，Urkund报告有一个匹配的段落，Turnitin报告有两个匹配的段落。

（三）微化学、矿物学和理论化学在所有三个抄袭检测软件程序中显示出最低的相似性指数，要么没有匹配的段落，要么只有很少的匹配段落。

（四）不同的抄袭软件获得的结果存在差异。例如，与许多学科相比，iThenticate通常会报告更多的匹配段落，相对于Urkund和Turnitin。

（五）一些学科在不同的抄袭检测工具中存在匹配段落的不一致性。例如，无机化学的结果存在差异，iThenticate和Turnitin报告有六个匹配的段落，而Urkund没有发现任何匹配的段落。

（六）总体而言，所有学科的匹配段落的百分比相对较低，表明ChatGPT生成的内容通常与现有来源没有大的相似性。

结论

总之，通过使用各种抄袭检测软件程序对ChatGPT生成的内容进行基于学科的相似性指数分析，揭示了一些重要的发现。ChatGPT生成的内容在化学领域的不同学科中，与现有来源的相似性水平相对较低，大部分段落没有显著的匹配。相似性指数在不同学科之间存在变化。不同抄袭检测软件获得的结果存在不一致性。虽然相似性指数提供了相似性的定量度量，但进行手动检查和上下文分析以确定ChatGPT生成的内容的适当性、原创性和准确性至关重要。抄袭检测软件应该作为与手动评估相辅相成的工具，以便就ChatGPT生成的内容的质量和原创性做出明智的判断。基于这些发现，可以得出结论，ChatGPT适用于化学及其子学科的全面数据集，它有潜力生成与现有来源有限相似性的内容。未来的研究和自然语言处理模型的改进可以进一步提高生成内容的可靠性和可信度，扩大在化学领域科学交流和知识传播的可能性。

参考资料

Kirtania, D. K. (2023). ChatGPT Generated Content and Similarity Index in Chemistry & Allied Sciences.

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

J. Chem. Inf. Model. | ChatGPT 生成的内容与化学领域数据相似性指数

n8n实战：Webhook、条件判断与API集成详解

谷歌太壕了！编程Agent大招至简：开源且免费，百万上下文、多模态、MCP全支持

老黄新鲜一刀，RTX 5050正式官宣

国产GPU历史性时刻！摩尔线程、沐曦同日获IPO受理

一张小卡片敢卖999？原来是智能体AI硬件

佛山也要AI：从“制造之都”迈向“AI 新‘质’造之都”

OceanBase AI新进展：OB Cloud服务数十家头部企业AI应用落地

灵快科技获数百万元天使轮融资，发布能自主进化的AI数据分析师TabTab

老年人12周才有效，年轻人一次就够：科学家揭示丢失的运动激素

预测大模型工业生存法则,华为博士告诉你什么是B端最需要的大模型