陶哲轩亲测点赞o3-mini:专家级证明,我收到了一个完美的答案

720次阅读
没有评论

陶哲轩亲测点赞o3-mini:专家级证明,我收到了一个完美的答案

重建图论证明

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

刚刚,陶哲轩亲测了一下o3-mini,然后他给出了这样的结论:

重建图论中一个标准(专家级)结果的证明,o3-mini是完全可以hold住的。

陶哲轩亲测点赞o3-mini:专家级证明,我收到了一个完美的答案

陶哲轩要重建的这个证明,叫做三角形移除引理(triangle removal lemma),由Ruzsa和Szemeredi于1978年提出,是极值图论中的重要结果:

对于任意的η>0,都存在c>0,使得对于任意一个足够大的有n个顶点的图,如果该图中最多包含cn3个三角形,那么可以通过移除最多ηn2条边,使这个图变为无三角形的图。

用另一种表述方式就是,如果一个有n个顶点的图包含o(n3)个三角形,那么可以通过移除o(n2)条边来删除所有的三角形。

然后陶哲轩看罢o3-mini的作答后表示:

在几秒钟后,我收到了一个完美的答案,(o3-mini)正确地解释了这种蕴含关系。

陶哲轩亲测点赞o3-mini:专家级证明,我收到了一个完美的答案

o3-mini是如何作答的?

首先,我们来看下陶哲轩的Prompt

Ruzsa和Szemeredi的三角形移除引理断言,如果一个具有n个顶点的图(n很大)包含o(n3)个三角形,那么可以通过移除o(n2)条边使其变为无三角形图。显然,这一引理蕴含了以下结论:如果一个具有n个顶点的图是n个诱导匹配的并集,那么它只包含o(n2)条边。你知道后者是如何从前者的结论中推导出来的吗?

陶哲轩亲测点赞o3-mini:专家级证明,我收到了一个完美的答案

对于这个问题,o3-mini的回答是这样的:

(注:为完整体现内容,o3-mini的作答将以英文呈现)

陶哲轩亲测点赞o3-mini:专家级证明,我收到了一个完美的答案

可以看到,o3-mini回答的逻辑还是比较清晰的。

一步一步展开论证,从起始条件(诱导匹配的并集),到构建辅助图,再到建立边与三角形数量的联系、应用引理,最后得出结论。

紧接着,陶哲轩开始追问了:

谢谢!三角形移除引理的另一个标准推论是(6,3)定理:如果一个具有n个顶点的3-一致超图不包含(6,3)-配置,即不存在六个顶点确定至少三个超边的情况,那么该超图只包含o(n2)条超边。你能解释一下为什么这也是三角形移除引理的一个推论吗?

o3-mini在思考了片刻后,开始作答:

陶哲轩亲测点赞o3-mini:专家级证明,我收到了一个完美的答案

o3-mini对这个问题的总结是:

在一个不包含任何 “(6,3)-configuration”(即任意六个顶点不生成三条或更多超边 )的3-uniform 超图中,由于将超边编码为辅助图中的三角形后,辅助图的三角形结构受超图条件限制呈现 “稀疏” 状态 ,根据三角形移除引理可以推断出,该超图中的超边总数为o(n2),也就是说这样的超图不会过于稠密。

在此之后,陶哲轩便开始加大难度

感谢你的大致概述!我有兴趣将其扩展成一个更详细的证明。我听说首先考虑超图是线性的情况会很有帮助——即任意两条超边不会共享两个顶点。你能将你的概述扩展成一个更精确的论证,专门针对线性情况吗?

这一次,o3-mini思考的时间足足是上个问题的四倍:

陶哲轩亲测点赞o3-mini:专家级证明,我收到了一个完美的答案

这次o3-mini的推理过程,是通过构造一个辅助图G,将超图中的每个超边对应到辅助图中的一个三角形。利用线性性质保证这些三角形边不相交,再通过假设m=Ω(n2)推出与三角形移除引理相矛盾的结果,从而证明原假设错误,得出超边数量的渐近上界 。

陶哲轩再追问:

如何确保图G不会产生任何额外的三角形,除了那些直接由超边生成的三角形之外?

陶哲轩亲测点赞o3-mini:专家级证明,我收到了一个完美的答案

至此,陶哲轩评价道:

好的,我认为这给出了(6,3)定理在线性情况下的完整证明

然后继续追问o3-mini:

你有什么建议,如何建立一般情况下使用这个线性的情况?

陶哲轩亲测点赞o3-mini:专家级证明,我收到了一个完美的答案

o3-mini给出了一种“清理”的路数:

  • 清理超图:通过删除少量超边使得到的子超图H’线性化,“(6,3) 条件” 保证不会移除过多超边。
  • 应用线性情况结论:为线性超图H’构建辅助图,每个超边对应一个边不相交三角形。
  • 利用三角形移除引理:过多的边不相交三角形会导致与引理矛盾,所以H’有o(n2)个超边。
  • 推导原始超图的边界:因为H’保留了H’的几乎所有超边,所以原始超图H’也有o(n2)个超边。

陶哲轩认为这是一个不错的策略,并最后提出了一个问题:

你能不能试着给出一个更精确的清理步骤的描述,这个步骤可能会把一个一般的(6,3)超图转换成一个线性的(6,3)超图,并对边缘进行一些控制?

陶哲轩亲测点赞o3-mini:专家级证明,我收到了一个完美的答案

但也有局限性

在陶哲轩六连问之后,除了刚才提到的“完美答案”之外,他还给出了更加客观中立的评价:

我的总体感觉是,至少对于研究级的数学任务,当前的模型在“仅需用户提供大致指导即可真正有用”和“只有在用户提供大量详细指导后才有用”之间波动,而最强大的模型在前者中的回答比例更高。

它们似乎特别适合那些非常标准的问题,这些问题的答案基本上可以在现有资源(如维基百科或StackOverflow)中找到。

但随着问题变得越来越冷门,成功率逐渐下降(尽管下降的方式较为平缓),并且需要更多的用户指导(或更高的计算资源)才能使LLM的输出达到可用的形式。

陶哲轩亲测点赞o3-mini:专家级证明,我收到了一个完美的答案

陶哲轩的这波实测也引发了不少网友的讨论。

例如有人质疑LLM的推理能力,认为它们是随机文本生成器,而不是真正的推理模型。他指出LLM的输出依赖于点赞/踩票信号,而不是真正的逻辑推理。

陶哲轩亲测点赞o3-mini:专家级证明,我收到了一个完美的答案

陶哲轩与o3-mini完整对话:
https://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d

参考链接:
https://mathstodon.xyz/@tao/114139145175476223

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 3 月
 12
3456789
10111213141516
17181920212223
24252627282930
31  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛 一水 2025-12-17 ...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...