小扎回应Llama4对比DeepSeek:榜单有缺陷,等推理模型出来再比

723次阅读
没有评论

小扎回应Llama4对比DeepSeek:榜单有缺陷,等推理模型出来再比

Llama首次推出官方API

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

Meta首届LlamaCon开发者大会开幕,扎克伯格在期间接受采访,回应大模型相关的一切。

包括Llama4在大模型竞技场表现不佳的问题:

开源基准测试存在缺陷,常偏向特定不常见用例,与产品实际使用场景脱节,不能真实反映模型的优劣。

试图为这类东西进行过多优化会误入歧途。

对于我们团队来说,搞一个冲到榜单顶部的Llama 4 Maverick版本相对容易,但是我们发布的版本根本没有对此进行调优,排名靠后是正常的。

小扎回应Llama4对比DeepSeek:榜单有缺陷,等推理模型出来再比

以及与DeepSeek的比较:

我们的推理模型还没有出来,所以还没有和R1相应的模型去对比。

与此同时,在Meta合作伙伴亚马逊的网站代码中,被扒出要即将推出的Llama4推理模型为17B参数的llama4-reasoning-17b-instruct。

小扎回应Llama4对比DeepSeek:榜单有缺陷,等推理模型出来再比

活动期间,有那么点Meta不语,只是一味地抛出Llama系列“亮点”的意思了(doge):

  • 除即将推出超2万亿参数的Llama 4 Behemoth模型之外,代号“Little Llama”的80亿参数小模型可能会在未来几个月推出。
  • 推出官方Llama API平台
  • 推出一系列AI安全工具,包括检测和防止提示注入、越狱等风险。

扎克伯格谈“智能爆炸”

扎克伯格认为随着软件工程和AI研究的自动化推进,智能爆炸具备实现的可能性。从技术发展趋势来看,AI写代码能力不断提升,预计未来12-18个月,大部分相关代码将由AI完成

这不仅意味着开发效率的大幅提高,还可能带来代码质量的提升,因为AI能够基于大量的数据和先进的算法,生成更优化、更高效的代码。

然而真正达到智能爆炸还面临着诸多现实层面的制约。在物理基础设施上,构建大规模计算集群复杂且耗时,从研发到稳定应用需要一定时间,同时还需要配套建设网络设施,确保数据的高速传输;建设专门的数据中心场地,要经过严格的审批流程;解决能源供应问题,无论是采用传统的燃气轮机发电还是绿色能源,都涉及到复杂的供应链体系,这些环节都需要耗费大量的时间和资源。

在人机协同方面,人们对AI系统的适应和反馈同样需要时间。AI系统并非一经推出就能被用户熟练使用,而是需要一个相互学习的过程。用户在使用过程中逐渐掌握与AI交互的方式,AI则通过分析用户的行为和反馈,不断优化自身的功能和性能。

小扎回应Llama4对比DeepSeek:榜单有缺陷,等推理模型出来再比

在Meta广告团队的自动化排序实验中,尽管有大量的测试想法,但由于计算资源的限制,无法对所有假设进行充分测试;同时,为了保证测试结果的准确性和可靠性,需要大量的测试人力,这也在一定程度上限制了实验的推进速度。

扎克伯格认为,人们已经开始与AI建立起多种类型的关系,如将AI作为治疗师倾诉或朋友分享生活等,产品开发者应该尊重用户的选择

虽然现阶段这类AI人际关系相关的产品在技术实现上还不够成熟,比如虚拟治疗师或朋友的形象往往只是简单的图片或粗糙的动画,缺乏真实的交互感,但随着技术的不断进步,为提升虚拟形象的真实感和交互性带来了新的可能。

换句话说,AI和元宇宙战略在未来还有联动效应。

在产品设计理念上,避免过度干扰用户是关键原则。Meta的Orion眼镜设计目标不仅仅是集成各种先进的技术功能,更重要的是要成为一副好用的日常眼镜。在不使用AI功能时,它要能像普通眼镜一样满足用户的基本需求,如佩戴舒适、外观美观;当用户需要使用 AI 功能时,又能便捷地提供服务,如语音交互、信息展示等。

这种设计理念同样适用于增强现实未来的产品设计,即让物理世界和数字世界自然融合,在为用户提供丰富数字内容的同时,避免数字元素过度充斥用户的视野,造成视觉和心理上的负担。

小扎回应Llama4对比DeepSeek:榜单有缺陷,等推理模型出来再比

最后,扎克伯格回答了“如果软件生产力在两年内提高100倍”会怎么样。

他认为从历史看,过去全人类大部分精力都用于养活自己,也就是从事农业为主。最近100多年来满足基本身体需求在人类精力中的占比越来越小。

这种转变有两个影响:一个是越来越多的人在追求创意和文化。第二是人们花在工作上的时间更少,而花在娱乐和文化上的时间更多。

但随着时间的推移,如果每个人都拥有这些超人类工具来创造大量不同的东西,就会出现令人难以置信的多样性。其中一部分成果将用于解决难题:攻克疾病、推动科学进步、开发让我们生活更美好的新技术。

Llama首次推出官方API

此前Meta只管开源模型,部署托管各凭本事,现在终于推出官方API平台。

  • 提供微调和评估Llama模型性能的工具。
  • 新型芯片供应商Cerebras和Groq合作,提供高推理速度的选项。
  • 承诺不会使用客户数据来训练自己的模型。

目前属于邀请测试阶段,需要排队。

小扎回应Llama4对比DeepSeek:榜单有缺陷,等推理模型出来再比

不过手快的开发者在会场上就把Demo做出来了。

小扎回应Llama4对比DeepSeek:榜单有缺陷,等推理模型出来再比

利用多模态能力,描述相机拍到的画面,整体上描述准确,不过其实这根香蕉是玩具,对AI来说还是难了。

小扎回应Llama4对比DeepSeek:榜单有缺陷,等推理模型出来再比

Llama API:
https://www.llama.com/products/llama-api/#llama-protections

Demo试玩:
https://llama-api-launch.craigsdemos.workers.dev

参考链接:
[1]https://www.dwarkesh.com/p/mark-zuckerberg-2
[2]https://x.com/craigsdennis/status/1917365062165225544
[3]https://x.com/btibor91/status/1917232574344384522

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 4 月
 123456
78910111213
14151617181920
21222324252627
282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛 一水 2025-12-17 ...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...