Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

841次阅读
没有评论

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

网友:新的标杆再次诞生!

刚刚,Kimi团队上新了!

开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking,多模态和推理双双拿捏。

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

按照Kimi官方的说法,其关键亮点如下:

  • 都是基于MoE架构,总参数为16B,但推理时仅激活2.8B
  • 具备强大的多模态推理能力(媲美参数大10倍的模型)Agent能力
  • 支持128K上下文窗口;
  • 采用相对较为宽松的MIT许可证

如图所示,和Qwen2.5-VL、Gemma-3等前沿开源VLM相比,Kimi-VL-Thinking仅使用2.8B激活参数即可实现强大的多模态推理。

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

同时在一些重要基准测试中,Kimi新模型“以小博大”,超越了GPT-4o等规模更大的模型。

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

目前两款模型均已上架Hugging Face,分为Instruct基础版和Thinking推理版。

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

网友们纷纷表示,新的标杆再次诞生!

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

多模态和推理双双拿捏

话不多说,我们直接看Kimi新模型的具体玩法和效果。

视觉理解与推理

首先,作为一款通用的VLM模型,Kimi-VL具备强大的视觉理解和推理能力

给它一份手稿,要求它通过逐步推理来确认手稿属于谁,以及所记录的内容。

可以看到,Kimi-VL通过分析手稿的笔迹、内容、语言等特征,推断出手稿可能属于爱因斯坦,理由是这些内容与引力场方程有关,这与爱因斯坦对广义相对论的贡献有关。

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

又或者只提供一张图片,让Kimi-VL来判断城市地标建筑、识别游戏场景等。

比如第2个例子中,它成功识别出图片中的穹顶建筑为多伦多的罗杰斯中心(Rogers Centre),同时描述了其特征和用途。

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

除此之外,Kimi-VL也能被用来解答高难度几何数学题。

还是仅需一个上传图片的动作,它就能将复杂数学公式转换为LaTeX代码,并以正确格式输出。

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

OCR与文本处理

当然,Kimi-VL对多模态数据的正确理解还离不开一项关键能力——OCR字符识别

在OCRBench基准测试中,其得分为867,属于SOTA水平。

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

除了识别数学公式,它还能识别金融表格(以Markdown表格格式输出)和手写作文。

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

甚至还能从长达一小时的视频课程中捕捉和理解关键细节。

比如提供视频中的某句话“授人以鱼不如授人以渔”,要求它找到出处并进一步解读。

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

智能体任务与交互

值得关注的是,Kimi-VL还在多轮Agent交互任务(例如OSWorld)中表现出色,取得了媲美旗舰模型的SOTA结果。

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

比如在Chrome浏览器中,要求它自动启用“Do Not Track”功能来保护用户隐私。

可以看到,通过一步步思考,Kimi-VL对每个屏幕进行解读,识别相关的用户界面元素,并通过清晰的思路、操作和API调用按顺序执行相应的操作。

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

背后技术原理

那么接下来的问题是,怎么做到的?

来看Kimi此次公开的技术报告。

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

首先,在模型架构上,Kimi-VL和Kimi-VL-Thinking主要由三大部分构成:

  • MoE专家混合语言模型(之前发布的Moonlight-16B-A3B)
  • 原生分辨率视觉编码器(MoonViT,基于SigLIP-SO-400M微调)
  • 一个多层感知机(MLP)投影器。
Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

模型具体训练过程如下:

数据准备

这第一步,团队构建了三大类别数据集:

1、预训练数据。精选来自六个类别的高质量数据,包括字幕数据、图像文本交织数据、OCR数据、知识数据、视频数据和智能体数据。通过过滤、合成和去重等操作,控制数据质量。

2、指令数据。用于增强模型的对话和指令遵循能力。对于非推理任务,通过人工标注构建种子数据集,训练种子模型后生成并筛选多轮响应;对于推理任务,利用拒绝采样的方式扩展数据集,确保数据多样性和准确性。

3、推理数据。通过类似拒绝采样和提示工程的方法,收集和合成高质量的长思维链数据。

预训练:主要提升多模态能力

然后开始预训练,这一阶段共消耗4.4T tokens,主要目标是提高模型的多模态理解能力。

概括而言,这一过程包含4个步骤:先独立进行ViT训练,以建立原生分辨率视觉编码器;随后进行三个联合训练阶段(预训练、冷却、长上下文激活)。

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

后训练:主要提升长思维链推理能力

接着进行后训练,通过在32K和128K上下文中进行的两个阶段的联合监督微调、长思维链监督微调及强化学习,团队进一步提升了模型的长期思考能力

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

更多细节感兴趣可以查阅原论文。

One More Thing

有一说一,相比于DeepSeek、Qwen等国内竞争对手,Kimi最近一个月实在有点过于安静了。

从官方公众号来看,最新一条发布还是在2月份。

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

在这股平静之下,网友们开始猜测:

Kimi即将有大动作了?

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

结合更多消息,目前大家比较认可的推测是K1.6模型即将到来。

就在3月,基于Kimi-K1.6的数学模型突然曝光,在编程基准测试LiveCodeBench中拿下第一,超越o3、DeepSeek-R1等模型。

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

当然,也欢迎更多知情者在评论区爆料(doge)。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 4 月
 123456
78910111213
14151617181920
21222324252627
282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

Failed to fetch content Read More 
LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了 一水 2025-12-21 19:13:08 来源:量子位 “LLM到不了AGI...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 一水 2025-12-21 19:11:12 ...