我们的工作重点是检测由大型语言模型(LLM)生成的输出与人类生成的输出之间的区别。能够区分两者在许多应用中至关重要。然而,在社区内,这种区分的可能性和不可能性一直是争论的话题。因此,一个核心问题是,我们是否能够检测到由AI生成的文本,如果可以,在何时可以检测到。在这项工作中,我们提供证据表明,除非人类生成的文本和机器生成的文本在整个支持上的分布完全相同,否则几乎总是可以检测到AI生成的文本。这个观察结果来自于信息论中的标准结果,并且基于这样一个事实,即如果机器生成的文本越来越像人类,我们需要更多的样本来检测它。我们推导出AI生成的文本检测的精确样本复杂度边界,告诉我们需要多少样本来检测。这引出了更复杂的检测器设计的额外挑战,需要使用n个样本来检测,而不仅仅是一个样本。这是未来关于这个主题的研究范围。我们的实证评估支持我们的结论,说明AI生成的文本检测应该在大多数情况下是可行的更好的检测器。我们的结果强调了在这个领域持续研究的重要性。
总结:
本文讨论了利用人工智能生成的文本检测及其可能性。作者提出了一种新颖的通用文本检测方法,该方法使用基于深度学习的端到端神经网络和生成对抗网络(GAN)。作者还描述了该方法在公共数据集上的实验结果,表明该方法在文本检测任务上表现优异。文章还讨论了该方法的潜在应用,包括自动化文档处理和数字化文本归档等。最后,作者指出未来的研究方向,如优化文本区域检测的性能以及进一步提高识别准确性和速度。
标题:On the Possibilities of AI-Generated Text Detection
作者:Souradip Chakraborty, Amrit Singh Bedi, Sicheng Zhu, Bang An, Dinesh Manocha, Furong Huang