「天工大模型4.0」o1版和4o版正式上线天工APP和网页免费使用

556次阅读

「天工大模型4.0」o1版和4o版正式上线天工APP和网页免费使用

量子位的朋友们
2025-01-06
11:36:23

来源：量子位

全面向用户开放

2024年11月，昆仑万维「天工大模型4.0」o1版和4o版正式公开发布，并启动邀请测试。

今天，在2025年1月6日，我们正式将「天工大模型4.0」o1版和4o版同步上线，并全量登陆天工网页和APP，人人免费可用！

作为国内第一款中文逻辑推理能力的o1模型（Skywork o1），不仅包含上线即开源的模型，还有两款性能更强的专用版本。经过全方位的技术栈升级和模型优化，由昆仑万维自研的Skywork o1系列能熟练处理各种推理挑战，包括数学、代码、逻辑、常识、伦理决策等问题。

「天工大模型4.0」4o版（Skywork 4o）是由昆仑万维自研的多模态模型，其赋能的实时语音对话助手Skyo，则是一个具备情感表达能力、快速响应能力、多语言流畅切换的智能语音对话工具，为用户带来温暖贴心、流畅实时的对话体验。

当前，这两款模型已正式登陆昆仑万维旗下天工web与APP，全面向用户开放。

天工AI官方地址：https://www.tiangong.cn/ （进入后可直接体验o1版）

01. Skywork o1为用户带来更极致的推理能力，正式上线天工web

Skywork o1在逻辑推理任务上性能的大幅提升，得益于天工三阶段自研的训练方案：

推理反思能力训练：Skywork o1通过自研的多智能体体系构造高质量的分步思考，反思和验证数据。通过高质量的、多样性的长思考数据对基座模型进行继续预训练和监督微调。此外，我们在版本迭代中通过大规模使用自蒸馏和拒绝采样，显著提升了模型的训练效率和逻辑推理能力。

推理能力强化学习：Skywork o1团队研发了最新的适配分步推理强化的Skywork o1 Process Reward Model（PRM）。实验证明Skywork-PRM可有效的捕捉到复杂推理任务中间步骤和思考步骤对最终答案的影响。结合自研分步推理强化算法进一步加强模型推理和思考能力。

推理planning：基于天工自研的Q*线上推理算法配合模型在线思考，并寻找最佳推理路径。这也是全球首次将Q*算法实现和公开。Q*算法落地也大大提升了模型线上推理能力。

相较于之前的版本，今天正式上线的Skywork o1进行了重磅升级，主要体现在以下三个方面：

1.PRM优化

通过采用高效的数据筛选策略，仅依赖开源偏序数据集，Skywork-Reward-27B的奖励模型（RM）在RewardBench上超过此前排名第一的Nvidia-340B模型，并获得了RewardBench官方的认可转载。此外，对奖励模型的优化函数进行了详尽的增广实验，结果发现Bradley-Terry损失函数在大多数场景中具有良好的适配性。

图1丨天工自研Skywork-Reward

（论文链接：https://arxiv.org/abs/2410.18451）

PRM应用场景扩充：相比上个版本主要侧重于数学与代码，新版PRM增加了对更多常见推理领域的支持，例如常识推理、逻辑陷阱、伦理决策等。除了推理领域外，也针对通用领域（写作、聊天），以及多轮对话构造相应训练数据，提供了全场景的覆盖。

PRM模块化评估能力：Skywork-PRM侧重优化了对o1风格思维链的试错与反思验证能力的支持，细粒度地为强化学习与搜索提供了更准确的奖励信号。

2.基于Q*算法的推理系统优化

Q*是一种通过借鉴人类大脑中“system 2”的思考方式，我们将大型语言模型（LLMs）的多步推理视作一个启发式搜索问题，并提出Q*线上推理框架配合模型在线思考，用以在推断过程中进行审慎规划，从而指导 LLM 的解码过程。

具体来说，Q*通过学习一个 Q-value 模型作为启发式函数来估计预期的未来回报，从而能够在不针对当前任务微调 LLM 的情况下，有效地指导 LLM 选择最有前景的下一步推理。基于天工自研的Q*线上推理算法配合模型在线思考，不仅避免了大量的计算开销，也降低了在其他任务上性能退化的风险。

图2丨天工自研Q*

（论文链接：https://arxiv.org/abs/2406.14283）

模块化的树形结构推理：通过高质量的、多样性的长思考数据对基座模型的预训练和监督微调，Skywork o1已经具备了结构化输出回答的能力，即通过对推理过程的统筹规划进而对模型回答进行自动化分层输出，并且在推理过程中穿插反思和验证。因此，考虑到o1-style的回答通常在回复长度上远超传统模型，现有planning方法中以sentence作为step的划分方式表现得过于低效且容易产生over-thinking的现象。为此，Skywork o1 采用以 module 作为 step 的规划方式，在一定程度上提升了规划效率，同时让 PRM 能够看到更完整的模块化回答，从而做出更准确的判断并指导 LLM 进行推理。

自适应搜索资源分配：现有的已开源o1-style模型在处理简单问题上往往存在over-thinking的现象，把简单的问题复杂化并且反复验证，造成计算资源的浪费。Skywork o1采用了自适应分配搜索资源的方式，在搜索开始之前对用户query进行难度预估，自适应地控制搜索树的宽度和深度，在简单的问题上做到快速给出回答的效果，在复杂题目上做到反复多轮验证从而提高回答的准确率。

3.创新性提出Step-DAPO算法，力争解决训练效果不稳定、计算资源开销过大等问题

针对现有RLHF算法在落地过程中存在奖励信号稀疏，训练效果不稳定，计算资源开销过大等问题，昆仑万维天工团队提出了一种新的step-level离线强化学习算法，DAPO 首先使用一个评估函数来预测每一步的推理准确性，从而为优化生成策略提供密集的信号，随后DAPO 会根据每个状态-动作对的优势来调整策略比率，从而优化推理步骤的生成。此外，DAPO 中的 Actor 和 Critic 组件分别独立训练，避免了在类似 PPO 算法常见的“Actor-Critic”共同训练不稳定问题。

图3丨天工自研Step-DAPO

（论文链接：https://arxiv.org/abs/2412.18279）

更多关于Skywork o1的技术报告将陆续发布，敬请期待。

全面升级且正式上线的Skywork o1 Lite / Skywork o1 Preview大幅提升了数学、代码和逻辑推理能力。我们对其进行标准数学基准测试（包括GSM8k、MATH、OlympiadBench、AIME-24以及AMC-23），以及在HumanEval、MBPP、LiveCodeBench及BigCodeBench这四项代码基准测试上评估了Skywork o1的代码能力。

表1丨Skywork o1在数学基准评测上的表现

表2丨Skywork o1在代码基准评测上的表现

*备注：对于BigCodeBench，我们采用它的instruct子集进行测试

可以看出，在数学、代码基准测试中，Skywork o1的能力表现逼近o1-mini，显著优于行业常规通用大模型。

与此同时，针对逻辑推理测试，我们专门创建了一个私有评估集用于更好的评估类o1模型的思考，规划以及反思等能力。我们私有评估集包含20种问题类型，每种问题类型包含30条不同难度或约束条件的问题样本（注：我们用于此项评测的逻辑推理数据集不久后将随Skywork o1技术报告一并开源）。

评估集中所有问题类型和样本都经过挑选及人工校验，通常来说需要模型具备较强类人逻辑推理能力才能解决。经验证，目前评估集中大多数问题哪怕是对于业界 Tier 1级的常规通用大模型（例如GPT-4o或者Claude-sonnet）都是极具挑战性的。

我们评估集中若干个典型问题类型：

算24：给定若干个数字和目标，如何在一定约束条件的前提下使用给定的数字计算得到目标。

条件逻辑：这基于已知条件进行逻辑推理的约束满足问题。解题目标是通过分析这些约束条件之间的关系（互斥性或数量等），找出满足所有约束的唯一解。

密码：给定一个用某种方法加密的原文到密文样的样例，推测一个新的密文所对应的原文。

最小和：已知若干个整数数的乘积，求这些整数所能达到的最小和。

数独：9×9的数字框，要求每一行、每一列以及每个3×3的小框中的9个数字都互不相同。

一个问题类型涵盖该问题的多个变种。以“算24”为例，该问题类型涵盖的变种如下：

经典：如何用5, 5, 5, 1通过四则运算得到24。

变种1（目标变化）：如何用4, 3, 5, 7通过四则运算得到36。

变种2（额外约束）：如何用4, 3, 5, 7通过四则运算得到36，不能改变数字顺序也不能使用括号。

变种3（额外约束）：用4, 5, 10通过四则运算得到24，要求三个数中有一个数要使用两次。

变种4（可自由使用数字）：如何用8个8得到1000。

下表中我们列举了在我们专有评测集上Skywork o1对比主流大模型的性能差异。同样的，Skywork o1的能力著优于常规通用大模型，表现仅次于o1-mini。

表3丨Skywork o1在逻辑推理评测上的表现

*备注：由于API超时的原因，OpenAI的o1正式版无有效评测结果。

那么接下来，我们快速来看下Skywork o1在它擅长的数学、代码和逻辑推理上的真实表现。首先，一道样本量接近40的“计算标准差”问题来考考它，这次的样本量对于o1来说也并不算是一个“轻松”的计算过程。

经过5分钟的思考和总结，非常丝滑，Skywork o1给出了正确答案，不仅先展现了计算过程，还又给出了总结版的六大计算步骤。接下来，再用一个很容易出错的“数独”题试试它的推理能力。

仅用时45秒，Skywork o1模拟着人的思考方式，给出了最终答案，同时还自我验证了一遍逻辑推理过程，以保证无遗漏。此外，我们输入一个长文本推理问题测试下它的逻辑能力和回答效果。

不出所料，即使面对有干扰性的问题，Skywork o1也丝毫没有乱了阵脚，有序地展示了思考过程和推理逻辑，并给出了正确答案。

02. Skywork 4o赋能的Skyo，已全面登陆天工APP

图4丨天工APP中Skyo入口与界面（来源：昆仑万维）

通常情况下，用户在使用智能语音对话系统时，有两个因素将会影响使用体验：响应是否够快、回复是否自然流畅。这两点决定了语音对话 AI 的体验有多逼近真人。

传统的语音助手多采用语音识别，内容理解与语音合成三阶段的级联方案。尽管被工业界广泛应用，但系统中多个模型模块串联，使得模块间信息传递损失，模型有时不能准确理解用户输入语音的真实意图。在对系统进行优化时，还存在模块之间相互制约影响，最终导致牵一发而动全身的情况，使得效果和响应速度优化都不够理想。最终导致传统方案的响应延迟优化困难、回复自然度有限，和语音 AI 对话更像在用指令操纵机器、而不是和真人交流。

为了达成“像和真人一样说话聊天”的效果，Skyo 坚持采用更先进的创新路线，通过多模态 LLM 端到端建模，来解决这个难题。

图5丨Skyo所采用的语音对话框架（来源：昆仑万维）

得益于上述团队自研的多模态端到端训练方案，Skyo 真正突破了传统方案的效果边界，整个框架可以分为以下流程：

1.语音输入（Speech Query）：用户通过语音说出问题或请求，这些语音内容会进入系统，作为初始的输入信号。

2.语音编码（Speech Encoder）：系统中的语音编码器(Speech Encoder)会将语音转化为具有语义特征的表征向量。

3.适配转换（Adapter）：接着，语义表征通过适配器模块映射到LLM可理解的输入空间，确保它能被核心的智能模型（LLM）理解，实现语音到文本语义的无缝转换。

4.大语言模型（LLM）：经过适配的语音表征输入到大语言模型中，LLM通过多模态处理能力生成响应完成任务。

5.语音输出（Speech Token）：框架支持语音令牌（Speech Token）的直接输出，从而实现了跨模态的端到端输出。进一步通过扩散模型，系统将speech token重建为真实的语音回复。

通过这个端到端框架，系统能够像人类一样，听懂用户的语音，提供自然、流畅的互动体验。该端到端框架还具有以下几个鲜明的特性：

1.极低响应延迟，实时打断：得益于端到端建模，Skyo 能根据语义判断用户是否已完整表达语义，再加上极致的延迟优化，Skyo 回复速度几乎与真人无异。

2.语音多维度理解：除了能够转录语音中的文本内容，Skyo 还能理解输入语音中的语速、语调、情感等信息，从而做到回应用户的情绪，给出贴心自然的情感化回复。

3.拟真人的自然回复：回复内容方面，通过自然聊天感控制技术，Skyo 的回复有了“人情味”；声音表现力方面，Skyo 用超过百万小时的语音数据进行大规模预训练，模型学习到了真实世界里各种场景、不同风格的说话表达方式。结合多模态理解能力，Skyo 生成的回复声音可以适配用户的情绪、对话上下文，回复声音的表现力多变且拟真。

基于这些成果，Skyo 的上线是我们在智能语音交互技术方向，从“操纵机器”迈向“和真人交流”的重要一步。

为了达到这样流畅且拟人的交互效果，昆仑万维坚持自主研发Skyo，研发团队拥有大量语音数据积累，并充分利用深厚的语音和音乐大模型的技术经验，搭建端到端自研先进链路，以保障Skyo能在多任务下表现出色，尤其在高强度多轮对话交互中仍能保持稳定性和流畅性。

Skyo研发团队通过构建大规模高质量、场景化、情感化和多样化的语音对话语料库，并基于先进的深度学习和大语言模型技术对其进行预训练与微调，显著增强了模型在对话场景中的上下文感知能力、情感理解能力和知识推理能力，从而提升其整体的对话连贯性、逻辑一致性及智能化水平。