AI日报｜90%准确率，AI算法要用于火星生命探测了；微软：下一代核反应堆将为 AI 提供动力

953次阅读

没有评论

今日值得关注的人工智能新动态：

微软：下一代核反应堆将为 AI 提供动力
90%准确率，AI算法要用于火星生命探测了
VideoDirectorGPT：生成时间上一致的长视频
如何提高模型的可靠性？将事实查询建模为“约束满足问题”
综述：大型语言模型对齐
提高文本生成质量：为Stable Diffusion提供多种微调方法
是艺术？还是矫揉造作？大型语言模型与创造力的虚假承诺
综述：视觉语言模型的社会偏见
综述：基于大型语言模型的 AI 代理
AIGC讲故事怎么样？研究发现：还不足以取代人类

01

微软：下一代核反应堆

将为AI提供动力

微软公司发布了一份首席项目经理的招聘启事，该项目经理将领导公司的核能战略，微软认为下一代核反应堆可以为其数据中心和人工智能雄心提供动力。

数据中心已经耗费了大量电力，这可能会阻碍公司的气候目标，除非它能找到清洁能源。高能耗的人工智能让公司面临更大的挑战。在微软上周举行的 Surface 大会上，人工智能占据了主导地位。

AI日报｜90%准确率，AI算法要用于火星生命探测了；微软：下一代核反应堆将为 AI 提供动力

02

90%准确率，

AI算法要用于火星生命探测了

探索其他世界的航天器上搭载的传感器能够探测到显示外星生命的分子。然而，众所周知，暗示着有趣的生物过程的有机分子会随着时间的推移而降解，因此目前的技术很难发现它们的存在。

近日，一种新开发的基于人工智能（AI）的方法能够检测到分子模式的细微差别，而这些细微差别表明了生物信号——即使在数亿年前的样本中也是如此。根据新的研究，这种机制的结果准确率高达 90%。

未来，这种 AI 系统可能会被嵌入机器人太空探索器上更智能的传感器中，包括月球和火星上的着陆器和漫游车，以及环绕土卫二和木卫二等潜在宜居世界的航天器。

AI日报｜90%准确率，AI算法要用于火星生命探测了；微软：下一代核反应堆将为 AI 提供动力

03

VideoDirectorGPT：

生成时间上一致的长视频

虽然近期的文本到视频（T2V）生成方法取得了显著进步，但这些方法大多侧重于生成具有单一背景的单个事件的短视频片段。与此同时，最近的大型语言模型（LLMs）已经证明了它们在生成布局和程序控制下游视觉模块方面的能力。这就提出了一个重要问题：能否利用这些 LLMs 中蕴含的知识来生成时间上一致的长视频？

该研究提出了 VideoDirectorGPT，这是一种用于多场景一致视频生成的新型框架，它利用 LLM 的知识进行视频内容规划和基础视频生成。实验证明，VideoDirectorGPT 框架大大改进了单场景和多场景视频生成中的布局和移动控制，并能生成具有跨场景视觉一致性的多场景视频，同时在开放域单场景 T2V 生成中取得了与 SOTAs 相当的性能。此外还证明了该框架可以动态控制布局引导的强度，还可以生成带有用户提供的图像的视频。

AI日报｜90%准确率，AI算法要用于火星生命探测了；微软：下一代核反应堆将为 AI 提供动力

论文：

VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning

04

如何提高模型的可靠性？

将事实查询建模为“约束满足问题”

斯坦福大学、伊利诺伊大学厄巴纳-尚佩恩分校、加州大学伯克利分校和微软研究院研究了基于 Transformer 的大型语言模型（LLMs）在生成与事实不符的文本时的行为。他们建议将事实查询建模为“约束满足问题”，并使用此框架研究模型如何与事实约束进行内部交互。该研究提出的 SAT Probe 是一种探测自我注意力模式的方法，它可以预测约束满意度和事实错误，并允许早期识别错误。该方法和研究结果表明，在 LLM 中使用对事实性的机械理解可以提高可靠性。

AI日报｜90%准确率，AI算法要用于火星生命探测了；微软：下一代核反应堆将为 AI 提供动力

论文：

Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models

05

综述：大型语言模型对齐

近年来，大型语言模型（LLMs）取得了长足的进步。这些进步在引起广泛关注的同时，也引发了各种担忧。不可否认，这些模型具有巨大的潜力；但是，它们可能产生不精确、误导甚至有害的文本。因此，采用对齐技术确保这些模型表现出符合人类价值观的行为就变得至关重要。

该调查旨在结合该领域的现有能力研究，广泛探讨为 LLM 设计的对齐方法。从人工智能对齐的视角出发，将现有的方法和新出现的建议分为外部对齐和内部对齐。研究人员还探究了一些突出问题，包括模型的可解释性，以及在对抗性攻击面前的潜在脆弱性。为了评估 LLM 对齐情况，他们还介绍了各种基准和评估方法。

AI日报｜90%准确率，AI算法要用于火星生命探测了；微软：下一代核反应堆将为 AI 提供动力

论文：

Large Language Model Alignment: A Survey

06

提高文本生成质量：

为Stable Diffusion

提供多种微调方法

文本到图像生成模型能够根据文本提示生成高保真图像，因而受到广泛关注。其中，稳定扩散（Stable Diffusion）模型是这一快速发展领域中领先的开源模型。然而，微调这些模型的复杂性带来了从新方法整合到系统评估的多重挑战。

为了解决这些问题，该研究介绍了 LyCORIS，这是一个开源库，为稳定扩散提供了多种微调方法。此外，研究人员还提出了一个全面的框架，用于系统地评估各种微调技术。该框架采用了一系列不同的指标，并深入研究了微调的多个方面，包括超参数调整和对不同概念类别的不同提示类型进行评估。

AI日报｜90%准确率，AI算法要用于火星生命探测了；微软：下一代核反应堆将为 AI 提供动力

论文：

Navigating Text-To-Image Customization:From LyCORIS Fine-Tuning to Model Evaluation

07

是艺术？还是矫揉造作？

大型语言模型与创造力的虚假承诺

从博客到故事，大型语言模型（LLMs）都表现出了高质量的写作能力。然而，客观评价一篇文章的创造性是一项挑战。托伦斯创造性思维测试（TTCT）将创造性作为一个过程来衡量，受此启发，该研究采用共识评估技术，提出了托伦斯创造性写作测试（TTCW），将创造性作为一个产品来评估。TTCW 由 14 个二元测验组成，分为流畅性、灵活性、独创性和阐述性四个原创维度。该研究招募了 10 位创意作家，并使用 TTCW 对专业作家或 LLMs 撰写的 48 篇故事进行了人工评估。分析表明，LLMs 生成的故事通过 TTCW 测试的次数比专业人员编写的故事少 3-10 倍。此外，该研究还探索了使用 LLMs 作为评估者来自动进行 TTCW 评估的方法，结果发现，没有一个 LLMs 与专家评估结果呈正相关。

AI日报｜90%准确率，AI算法要用于火星生命探测了；微软：下一代核反应堆将为 AI 提供动力

论文：

Art or Artifice? Large Language Models and the False Promise of Creativity

08

综述：视觉语言模型的社会偏见

近年来，机器学习（ML）模型，尤其是基于 Transformer 的预训练模型的迅速发展，给自然语言处理（NLP）和计算机视觉（CV）领域带来了革命性的变化。然而，研究人员发现，这些模型可能会无意中捕捉和强化训练数据集中存在的社会偏见，从而导致潜在的社会危害。解决这些偏见并确保人工智能（AI）系统的公平性已成为 ML 界的一个重要问题。

最近，新兴的多模态领域引入了预先训练好的视觉语言（VL）模型，这就要求人们关注这些模型中可能存在的社会偏见。虽然 VL 模型容易受到社会偏见的影响，但与 NLP 和 CV 中对偏见的广泛讨论相比，人们对 VL 模型的了解还很有限。该研究旨在为研究人员提供一个全面的视角，让他们了解 NLP、CV 和 VL 预训练模型中社会偏见研究的异同。通过研究这些观点，该研究旨在为如何在单模态和多模态环境中处理和减轻社会偏见提供有价值的指导。

AI日报｜90%准确率，AI算法要用于火星生命探测了；微软：下一代核反应堆将为 AI 提供动力

论文：

Survey of Social Bias in Vision-Language Models

09

综述：基于大型语言模型的AI代理

由于大型语言模型（LLMs）所展示的强大功能，最近出现了一股将其与人工智能代理（AI agents）集成以提高其性能的热潮。该研究探讨了基于 LLM 的 AI 代理与传统 AI 代理之间的核心差异和特点。具体来说，该研究首先比较了这两类代理的基本特征，阐明了基于 LLM 的代理在处理自然语言、知识存储和推理能力方面的显著优势。随后，该研究深入分析了 AI 代理的关键组成部分，包括规划、记忆和工具使用。特别是针对记忆这一关键部分，该研究提出了一种新的分类方案，不仅跳出了传统的分类方法，而且为 AI 代理的记忆系统设计提供了一个全新的视角。研究认为，对这些核心组件的深入研究和理解将为 AI 代理技术的未来发展奠定坚实的基础。最后，该研究为这一领域的进一步研究提出了方向性建议，希望能为相关领域的学者和研究人员提供有价值的见解。

AI日报｜90%准确率，AI算法要用于火星生命探测了；微软：下一代核反应堆将为 AI 提供动力

论文：

An In-depth Survey of Large Language Model-based Artificial Intelligence Agents

10

AIGC讲故事怎么样？

研究发现：还不足以取代人类

数字故事制作作为一种艺术形式，一直存在成本与质量之间的矛盾。人工智能生成内容（AIGC）的出现，被认为是高效数字故事制作的潜在解决方案。然而，这种融合的具体形式、效果和影响仍不明确，使得 AIGC 与讲故事相结合的边界尚未确定。

该研究探讨了 AIGC 与数字故事制作的融合现状，在一个项目样本中研究了两者融合的艺术价值，并通过访谈解决了一些常见问题。该研究得出结论：AIGC 虽然在图像创作、配音制作和音乐创作方面表现出色，但由于人类的创造力和审美，尤其是在复杂的人物动画、面部表情和声音效果方面，目前还存在不可替代的因素，因此还不足以取代人类。研究目标是提高公众对 AIGC 与数字故事制作相结合的现状、局限性和挑战的认识。

AI日报｜90%准确率，AI算法要用于火星生命探测了；微软：下一代核反应堆将为 AI 提供动力