美团新独立APP,点不了菜只能点AI

271次阅读
没有评论

美团新独立APP,点不了菜只能点AI

模型还全面支持多模态

用外卖的打法做AI模型?美团这是跟“又快又稳”杠上了(doge)。

两个月哐哐发了多款模型后,美团依旧动作不停——

最新开源LongCat-Flash-Omni,从名字你也能看出来了(Omni意为“全能的”),没错,这款模型终于支持多模态了!

美团新独立APP,点不了菜只能点AI

任务虽更复杂,但模型实力不减,一出手依旧是“开源即SOTA”:

在综合性的全模态基准测试(如Omni-Bench, WorldSense)上,超越Qwen3-Omni、Gemini-2.5-Flash,这款模型直接达到了开源SOTA水准,而且能和闭源的Gemini-2.5-Pro相媲美。

即使单拉出来文本、图像、音频、视频等各项模态能力,它也依旧能打(单项能力均位居开源模型前列),真正实现了“全模态不降智”。

美团新独立APP,点不了菜只能点AI

而且啊,这款模型还有一个亮点,那就是“快”(天下武功唯快不破?)——

继承LongCat-Flash系列“快”的基因,这款Omni模型总参数560B,激活参数仅27B,这种“大总参小激活”的MoE架构,使其在保持庞大知识容量的同时,实现了极高的推理效率。

不妨来直观感受一下它的生成速度:

美团新独立APP,点不了菜只能点AI

可以看到,从输入指令到生成第一个token的时间间隔非常短暂,整个过程相当丝滑。

据悉,在当前主流旗舰模型的性能标准和参数规模下,这是首个能够实现全模态实时交互的开源模型

以及有意思的是,美团发布这一成果时恰逢“Cursor‘自研’模型套壳国产开源”的八卦发酵之际,因此美团AI实力被低估的看法正在受到热议。(网友os:看看人家外卖公司,对比过于惨烈~)

美团新独立APP,点不了菜只能点AI

目前,这款模型已在美团旗下的LongCat APP和Web端上线,人人都能免费体验。

老规矩,一手实测火速走起~

实测美团新模型

打开LongCat APP,从首页可以看到,它目前支持文字/语音两种输入方式,并能进行语音通话(视频通话功能正在跑步入场中),Web端还支持上传图片和文件。

美团新独立APP,点不了菜只能点AI

别的不说,最近很火的“让AI帮忙数羊哄睡”的服务自然不能落下。

美团新独立APP,点不了菜只能点AI

视频链接:https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg

好好好,AI你也偷懒是吧(doge)每数到三就跳到十,还能自圆其说是小羊干的,这下数到100还不是手拿把掐。

而眼见和LongCat聊天有点意思,那视频通话内测当然得继续安排上。

随手拿过一个用光的香水瓶,接连抛出几个问题:

这是什么?你能看到什么?瓶身上的字是什么意思?能带上飞机吗…

没想到LongCat丝毫不慌,仔细“看过”后挨个解答了我们的问题:

美团新独立APP,点不了菜只能点AI

视频链接:https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg

看来“能看会说”这种基本功,已经难不倒咱们多模态选手LongCat了。

咳咳,言归正传我们再来测试一下文本/图片的输入情况。

在典中典的六边形小球弹跳问题上,LongCat对物理世界规则的理解也表现不错:

Prompt:显示球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上反弹。

由于贴心地附上了代码和可视化方案,所以我们火速把相关代码跑了出来,结果be like:

美团新独立APP,点不了菜只能点AI

另外,在图片理解测试中,我们发现LongCat非常适合用来“玩梗”。

随便让它识别一张梗图,当我们还在苦思冥想时,人家秒秒钟给出了正确答案:

美团新独立APP,点不了菜只能点AI

3,2,1,答案揭晓:鸭(压)岁钱。

美团新独立APP,点不了菜只能点AI

最后再来看一下语音输入,我们找了段复杂环境下的骑手送餐录音,给LongCat上点难度。

美团新独立APP,点不了菜只能点AI

音频链接:https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg

nice,即使是在BGM和环境音的干扰下,LongCat也顺利识别出了人声信息,并给出了相应意见。

美团新独立APP,点不了菜只能点AI

总之这波实测下来,对LongCat-Flash-Omni最大的感受就两个字——快、稳

即使面对复杂多模态任务,它也能做到即时响应,整个交互体验尤为丝滑。

而且, 不管是聊天问答、语音识别,还是那种脑筋急转弯式的推理题,它都能第一时间接得住、接得对。

可以说,Omni既延续了LongCat系列在对话和深度思考方面的传统优势,将回答的专业度拉满,又自带“Flash”系列的快基因——

好好好,果然不愧是LongCat-Flash-Chat和LongCat-Flash-Thinking的亲传弟子(Chat主打快、Think主打专业)。

美团新独立APP,点不了菜只能点AI

此时回看LongCat系列的成长路径,美团迭代模型的逻辑也很清晰了——先快、再专、后全。

  • 第一步,速度优先。先把底层打通,把模型响应、语音识别、实时生成这几件事做到“丝滑不卡”。对用户来说,这就是“好用”的基础门槛。
  • 第二步,专业深耕。速度有了,再往深里卷。LongCat在复杂逻辑推理、物理仿真、嘈杂语音识别等领域,明显做了不少优化。可以看出,美团不只是要做一个“会聊的AI”,而是想做能在复杂场景下稳定发挥的“懂业务的AI”。
  • 第三步,全面拓展。虽然目前LongCat还没开放图片/视频生成功能,但结合美团在视觉、地图、语音导航这些本地服务领域的深厚积累,全模态路线几乎是板上钉钉。到时候文字、语音、视觉全打通,也就顺理成章了。

毕竟前不久,美团就已经单独发了一个视频模型LongCat-Video,其稳定生成长视频的能力(一般可生成5分钟)也给人留下深刻印象。

美团新独立APP,点不了菜只能点AI

视频源自:@quarterturn;视频链接;https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg

又快又全,怎么做到的?

其实,做全模态大模型的并不只有美团——只是要么做得不够好,要么做得没美团快。

毕竟要让AI“听得懂、看得清、反应快”,远比想象中难得多:

一曰多模态融合难度高。文本、语音、图像、视频……不同模态在结构和时间维度上差异明显,强制融合反而会导致单模态任务效果不佳,样样通但样样松。

二曰离线理解与流式交互难兼容。模型看懂是一回事,边看边说是另一回事。两种模式的处理逻辑差异巨大,难以在同一架构中结合。

三曰实时交互性能受限。现有模型能看能听,但一到实时对话就卡壳,延迟高、响应慢,用户体验感差。要想模型实时性好,就离不开高质量的模型架构设计和基础设施部署。

四曰大规模训练效率低。多模态模型数据量庞大,模块之间配合复杂,影响模型训练速度。

而LongCat-Flash-Omni之所以能够脱颖而出,关键在于它在架构层面重构了多模态融合的底层逻辑

美团新独立APP,点不了菜只能点AI

主干部分延续LongCat系列的高效架构设计,采用完全端到端的统一架构ScMoE,能够同时接收文本、音频、图像、视频及任意组合的多模态输入。

实时交互层面,团队设计了创新的流式音视频处理机制,通过分块式音视频特征交织策略,模型能够将音频与视频特征按照时间片段同步输入LLM,实现低延迟的实时语音生成与视觉响应。

训练上,模型采用渐进式早期多模融合训练,先从纯文本预训练出发,依次引入音频和视觉数据,再逐步建立跨模态语义对齐与时序建模能力。

再通过多阶段退火(指先大胆探索,再小心收敛)与上下文扩展训练,将上下文窗口扩展至128K tokens,最终模型在多模态长时记忆、多轮对话、时序推理等能力上具备显著优势,并支持超8分钟的音视频交互

美团新独立APP,点不了菜只能点AI

而且为了提升多模态训练效率,团队还提出了模态解耦并行(MDP)训练方案,可以对LLM及编码器的性能、内存占用进行独立优化,确保训练过程中系统长期稳定运行。

正是凭借这种全模态覆盖+端到端架构+大参数量高效推理,LongCat-Flash-Omni达成了平衡:既有覆盖文本、图像、视频、语音的全模态能力,又能在开源体系下达到与闭源模型相媲美的实时交互体验,初步解决了参数大但推理慢的行业痛点。

软硬件“两条腿走路”,美团原来下的是这样一盘棋

u1s1,今年以来美团的一系列动作确实给人一种“眼花缭乱”的印象——

7月,它接连领投了两家明星具身智能企业它石智航&星海图;然后从8月底开始,又密集发布LongCat-Flash-Chat、LongCat-Flash-Thinking、LongCat-Video等一系列模型。

而且推出的AI新品也不少,包括AI编程应用NoCode、AI生活助手小美智能体……

人们不禁要问了:美团这是要干啥?

美团新独立APP,点不了菜只能点AI

带着同款好奇,量子位在仔细梳理后发现,原来美团这些看似“东一榔头西一棒槌”的动作,实则内有乾坤。

总结下来就是,美团正在靠着软硬件“两条腿走路”,以最终实现数字世界(比特)和物理世界(原子)的深度连接。

没错,又是“连接”这个因为太抽象宏观而容易被大家忽视的点。记得美团方面曾表示:

我们是一家连接线下业务和线上世界的科技公司。
在AI时代,我们将继续扮演这样的连接者角色,实现数字世界和物理世界之间的连接,这是我们的强项所在。

这一目标落到实处即为,软件这边要朝着“世界模型”不断迈进,硬件这边则要围绕“具身智能”加速落地

这背后的逻辑很清晰:作为一家从移动互联网起家的公司,美团比谁都清楚软件的威力。但越往产业深处走,它越意识到,要将软件的影响力延伸至物理世界,硬件是不可或缺的载体与瓶颈;而反过来,一个强大的“世界模型”,又能极大降低对硬件性能的苛刻要求,从而找到成本与效率的最优解。

有了这一判断基准,美团之前的所有动作就都能一一对号入座了。

比如说大模型,从最基础的对话机器人→深度思考模型→Video与Omni多模态模型,美团无疑是在为构建那个能深度理解现实并与其交互的“世界模型”打下根基。

而多年自研并频频出手投资具身智能,则是其“世界模型”能力在机器人、自动驾驶等关键场景中最核心的落地与兑现。

实际上,为了实现“世界模型+具身智能”的完美结合,美团如同一位老谋深算的棋手,其布局远比外界看到的更早、也更为体系化。

早在2017年,当无人化概念方兴未艾,美团方面就在一场行业峰会上提出了著名的“互联网下半场”概念——上天、入地、全球化

其中“上天”即指用高科技赋能全行业。美团那时候就强调:

未来甚至会利用无人驾驶技术和机器人来配送。

由此可见,用科技重塑服务业的远见,早已深植于美团的战略构想之中。

通过盘点其历年投资的代表性项目,我们不难发现这样一条清晰的脉络:

2018~2020年,以加固美团本地生活护城河为目标,投资聚焦在消费领域。要么是美团本地生活业务延伸,如美菜网、普渡机器人;要么是消费品牌,如喜茶、蜜雪冰城。

2021年,当集团战略升级为“零售+科技”后,虽然消费项目仍是重点之一,但当中科技项目的占比开始提升。尤其在无人配送方面,一大批与机器人和自动驾驶相关的项目获得了美团青睐。

而从2022年开始,美团更是全面加码了科技投资。从自动驾驶,到半导体AI芯片、再到各类具身机器人,美团持续押注未来核心基础设施。

美团新独立APP,点不了菜只能点AI

这些技术看似庞杂,但其内在逻辑高度统一——

美团投资的,早已不是某一种单一的机器人功能,而是“让整个物理世界都能被精确计算和高效调度”的整套技术路径

在这条路径中,AI是大脑,低空飞行与自动驾驶是腿脚,它们共同构成了一个超越具身智能的、更宏大的Robotics版图。

关于具身智能,在刚刚落幕的2025美团机器人研究院学术年会上,美团副总裁毛一年清晰指出:

未来5到10年,具身智能正是这一切的核心技术范式。

美团新独立APP,点不了菜只能点AI

他表示,美团的关键词是autonomy(无人化)——让技术驱动零售行业变革。过去数年,美团自研的无人机开始翻山跨海送汉堡、披萨,无人车完成了数以百万计的订单,风雨无阻,而机场、酒店、园区场景中,小黄蜂也在承担闪购配送任务。

(注:美团还是全国唯一获得民航局许可在中国全境合法飞行的无人机,而且在晚上也能飞。)

显而易见,在美团的战略拼图中,这些看似独立的智能终端,正逐渐串联成一张覆盖“低空—地面—社区”的立体化服务网络。 它们并非简单的设备叠加,而是美团将技术能力注入零售场景、实现系统效率跃迁的关键载体。

至此,美团在无数实践中沉淀出的核心方法论已不言自明——零售是场景,科技是赋能

当AI成为大脑,机器人成为双手双脚,具身智能与世界模型结合,连接起的就不仅是线上线下,更是比特与原子、虚拟与现实、算法与人类生活。

Anyway,虽然美团从未正面讲述过它的“科技”图景,但方向其实早已明明白白——

帮大家吃得更好,生活更好。

只不过这回,美团要“喂饱”的,不止是胃,还有未来。

LongCat Chat(APP需自行下载): https://longcat.ai
Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
GitHub: https://github.com/meituan-longcat/LongCat-Flash-Omni

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 11 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了 衡宇 2025-12-16 20:10:53 来...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026 克雷西 2025-...
顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式 思邈 2025-12-16 10:24:0...
PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026 梦瑶 2025-12...
Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控 量子位的朋友们 2025-12-16...
推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码 henry 2025-12-16 15:03:31 ...