编译 | 曾全晨
审稿 | 王建民
今天为大家介绍的是来自 Deep Kumar Kirtania的一篇论文。
近年来,自然语言处理和机器学习的进步导致了像ChatGPT这样功能强大的语言模型的发展。这些基于GPT-3.5架构的模型旨在理解和生成类似人类的文本响应。尽管这些模型已广泛用于各种应用,但它们在化学领域及其子领域的潜力仍未得到充分探索。通过利用该领域中丰富的知识和数据,ChatGPT有潜力帮助研究人员、学生和专业人员获取相关信息、解决问题并促进科学交流。ChatGPT有可能彻底改变我们在化学及其子学科领域中获取和互动科学知识的方式。生成的内容可以涵盖有机化学、无机化学、分析化学、物理化学、生物化学等广泛的主题领域。已经有一些关于化学和ChatGPT的论文发表,例如药物发现、教学学习、计算化学等。ChatGPT可以用于快速、易于访问地提供有关化学各个方面的信息,可能成为研究人员、学生和专业人员的宝贵工具。此外,ChatGPT可以用更简单的语言解释化学概念,帮助学生更好地理解复杂的主题,可能有助于解决问题。ChatGPT适用于多样的数据集,包括科学交流,从而可以使用与化学相关的技术术语和行话,有助于生成与特定查询相关的上下文相关响应。因此,评估ChatGPT在化学领域生成的内容的准确性和可靠性需要适当的评估方法,以衡量生成内容的质量,如检查其相似性。因此,作者研究的目标是调查ChatGPT在生成与化学相关的内容方面的能力,并检查相似性指数以评估生成响应的质量和准确性。
方法使用
表 1
首先,通过三种标准且全球知名的受控词汇工具,如杜威十进分类法(DDC)系统、西尔斯主题标题列表和美国国会图书馆主题标题(LCSH),选择了化学及其相关学科。利用这些工具,在排除重复或常见学科的情况下,共选择了20个较大的学科用于研究(学科按字母顺序列于表1中)。随后捕捉每个术语,通过ChatGPT生成内容,然后使用三种主要的抄袭检测软件来检查该内容,以找到相似性指数。最后,通过表格分析相似性检查或抄袭报告,得出研究结果和结论。
实验结果
表2
表2呈现了用于检查不同来源相似性的软件程序的表格列表。
(I)iThenticate显示相似性指数为12%,表明ChatGPT生成的约12%内容与现有来源具有相似之处。在检查的168个段落中,有75个段落被发现具有匹配内容,而93个段落没有任何匹配的内容。
(II)Urkund显示较低的相似性指数为1%,表明ChatGPT生成的内容与现有来源之间具有最小的相似之处。在168个段落中,只有23个段落被发现具有匹配内容,而大多数段落(145个)没有显示任何匹配的内容。
(III)Turnitin报告相似性指数为5%,表明ChatGPT生成的内容与现有来源之间存在适度的相似之处。在168个段落中,有37个段落被确定为匹配内容,而131个段落没有显示任何相似性。
(IV)Subject-wise分析(见表1)提供了关于ChatGPT生成内容与不同化学领域现有来源之间相似性的见解。这些抄袭软件获得的结果表明,ChatGPT生成的内容与现有来源之间的相似性程度各不相同。与Urkund相比,iThenticate和Turnitin显示出较高的相似性指数。主题领域的观察显示,具有更多发表文献的化学子领域显示出较高的相似性指数。相反,化学的较不传统的子学科,如农业化学、生物化学、植物化学、临床化学、微化学,或者发表文献较少的子学科,显示出较低的相似性指数得分。
从相似性指数的来源可以看出,ChatGPT生成的内容主要依赖于互联网资源,包括各种类型的网站。值得注意的是,抄袭检测报告表明,相似之处主要存在这些在线资源的句子和段落中。ChatGPT有时倾向于直接从输入查询或提示中提取信息,这可能导致文本重叠,因为ChatGPT适用于广泛的文本范围,包括技术和科学出版文献,这可能会影响其回答。需要注意的是,这些百分比只提供了相似性的定量测量,进一步的分析需要确定匹配的性质和上下文。
主要发现
(一)不同化学领域的相似性指数有所不同。一些领域显示较高的相似性指数,表明存在更多的匹配内容,而其他领域则显示较低的相似性,表明与现有来源的相似性较小。
(二)在所分析的领域中,有机化学在所有三个抄袭检测软件中显示出最高的相似性指数,iThenticate报告有七个匹配的段落,Urkund报告有一个匹配的段落,Turnitin报告有两个匹配的段落。
(三)微化学、矿物学和理论化学在所有三个抄袭检测软件程序中显示出最低的相似性指数,要么没有匹配的段落,要么只有很少的匹配段落。
(四)不同的抄袭软件获得的结果存在差异。例如,与许多学科相比,iThenticate通常会报告更多的匹配段落,相对于Urkund和Turnitin。
(五)一些学科在不同的抄袭检测工具中存在匹配段落的不一致性。例如,无机化学的结果存在差异,iThenticate和Turnitin报告有六个匹配的段落,而Urkund没有发现任何匹配的段落。
(六)总体而言,所有学科的匹配段落的百分比相对较低,表明ChatGPT生成的内容通常与现有来源没有大的相似性。
结论
总之,通过使用各种抄袭检测软件程序对ChatGPT生成的内容进行基于学科的相似性指数分析,揭示了一些重要的发现。ChatGPT生成的内容在化学领域的不同学科中,与现有来源的相似性水平相对较低,大部分段落没有显著的匹配。相似性指数在不同学科之间存在变化。不同抄袭检测软件获得的结果存在不一致性。虽然相似性指数提供了相似性的定量度量,但进行手动检查和上下文分析以确定ChatGPT生成的内容的适当性、原创性和准确性至关重要。抄袭检测软件应该作为与手动评估相辅相成的工具,以便就ChatGPT生成的内容的质量和原创性做出明智的判断。基于这些发现,可以得出结论,ChatGPT适用于化学及其子学科的全面数据集,它有潜力生成与现有来源有限相似性的内容。未来的研究和自然语言处理模型的改进可以进一步提高生成内容的可靠性和可信度,扩大在化学领域科学交流和知识传播的可能性。
参考资料
Kirtania, D. K. (2023). ChatGPT Generated Content and Similarity Index in Chemistry & Allied Sciences.