新智元报道
【新智元导读】一道悬了12年没人证出来的物理猜想,诺贝尔物理学奖得主Giorgio Parisi把它交给了Claude,模型几乎自己推出了完整证明。
一篇诺奖得主的论文中,特意点名了Claude。
就在几天前,一篇理论物理论文挂上了arXiv,作者在论文中提到了Claude的Sonnet 4.6和Opus 4.7,说这个证明「基本上是Claude自己推出来的」。
https://arxiv.org/pdf/2606.03300
论文作者是Giorgio Parisi,2021年诺贝尔物理学奖得主。
诺奖委员会官方解释他的获奖理由时,说他「发现了从原子到行星尺度的物理系统中,无序与涨落之间的相互作用」。
通俗地说,Parisi的大部分时间都在干一件事:
在看上去毫无规律的随机系统里,把背后藏着的隐秩序找出来,并且证明小到一块磁性材料、大到地球气候,都遵循同一套规律。
这次他与合作者Francesco Zamponi要攻克的是阻塞(jamming)转变理论里一道悬了12年的硬骨头:一个叫a+b=1的等式。
数值上,它早就被验证到极高精度。可整整12年,没人能证明它为什么对。
更巧的是,这个等式恰恰建立在Parisi自己开创的理论里。
全复本对称破缺(full-RSB),是Parisi在自旋玻璃和复杂无序系统研究中发展出的核心框架之一,也属于他后来获得诺奖所表彰的复杂系统理论贡献的重要组成部分。
这一次,它被证出来了,主力就是Claude的Opus 4.7。
在40轮对话的人机交互中,Claude回到了Parisi当年的理论框架,补上了那块理论证明的缺角。
这事传开后,Stability AI创始人Emad Mostaque转发了论文:「如果Claude连诺贝尔奖得主都用得上,那对你来说也足够好了。」
Parisi和Zamponi两人干脆把他们与Claude的对话在网上公开了:Claude到底在哪一步帮了忙,哪一步又是人改的,任何人都逐段去翻。
https://zenodo.org/records/20478428
那么问题来了。
这道把诺奖得主卡了12年的题,到底难在哪?
在问题的解决过程中,Claude又是怎么一步步从打杂,变成承担证明任务的主攻的?
一个等式
让物理界等了12年
要掂量这件事的分量,得先知道a+b=1到底有多难搞。
2014年,包括Parisi、Zamponi在内的几位物理学家,发表了关于无穷维硬球阻塞理论的系列论文(学界简称CKPUZ)。他们在计算里发现,几个临界指数之间,似乎藏着一个干净利落的关系:a+b=1。
数值上,这个等式严丝合缝,但他们试了又试,就是给不出一个解析证明。论文里只能写道:观察到它成立,证不出来。
这一等,就是12年。
更要命的是,这个等式还把两套理论连在了一起:一边是fullRSB解里的「相空间边缘稳定性」,另一边是堆积体系里的「力学边缘稳定性」。
证明a+b=1,就等于证明这两种「边缘稳定」在无穷维理论里其实是同一回事。
能算到小数点后好几位都分毫不差,却没人能说清它为什么对,这个等式成了理论物理中的一桩悬案。
从Parisi那份公开的对话中,为我们复现了Claude是如何与他紧密配合,破解这桩悬案的。
从打杂到主攻
Claude主要干了什么
双方的配合,一开始并不是直接奔着证明去的,而是从数值求解开始。
Parisi第一条提示词,是让Claude写一段C++ 代码,用打靶法(shooting method)求解一个非线性微分方程,精度希望达到 (10^{-10})。
这是一个程序员的体力活:把方程算出来,验证到足够高的精度。
Parisi要Claude写一段C++代码,用打靶法(shooting method)求解一个非线性微分方程,此时Claude还只是个程序员,干的是把方程算出来的体力活。
接下来很长一段,Claude都在干这种活:调代码、提精度,从普通双精度一路加到四精度,把数值结果一点点逼到小数点后十几位。
中途Parisi还把方程写错了一次,把其中一个函数写串了。Claude在这个错方程上反复尝试,甚至正确地指出它本身就无解,直到Parisi回过头才发现,是自己写串了函数。
真正的转折,出现在Parisi那句话之后:「我自己接下来能搞定了。你应该注意到a+b≈1精度极高。有人猜想这个关系是精确成立的。我要你做一个解析计算,证明它。」
人类把那个精度极高却始终没人证出的关系:a+c/2=1/2(即a+b=1),正式交给Claude,要它给出解析证明。
从这一刻起,Claude的角色变了。
它给出的证明,核心是构造了一个特殊的辅助函数,再经过两处并不显然的代数消去,得出一个关键恒等式。把这个恒等式和已知的物理条件一拼,结论就出来了:a=(1-c)/2,也就是a+b=1。
有意思的是,后来Parisi直接问Claude:你是怎么想到这个证明的?
Claude回答道:这里没有什么灵光一现,那个关键的辅助函数,其实是从想要的结论反推出来的,是「一套相当系统的逆向推理,加上小心的计算」。
它还补了一句:「不浪漫的版本,往往更接近真相。」
Claude复盘自己是怎么想到证明的:先由数值结果锁定目标a+c/2=1/2,再反推出关键的测试函数ξ=fg,剩下的全是代数硬算。
在合作的后半部分,Claude所做的并非在已知套路里填空,它参与的是数学结构本身的搜索和构造。
别急
人类科学家并没有出局
人类科学家并没有出局。
在Parisi公开的这份对话里,Claude的证明初稿一出来,人类并没有照单全收,而是指出了其中的错误,把方向重新拨了回来。
Claude的证明里有一步,要论证函数f恒不为负。它信心十足地用了一个极值原理的论证。
结果合作者Zamponi直接指出:这个论证是错的,在极小值处根本不存在矛盾。Claude也没犟,当场认错:「你的朋友是对的……我犯了一个符号错误。」
随后它一步步复盘,承认上界论证成立、下界论证确实失败。
合作者Zamponi(对话中署名FZ)直接指出Claude某步论证有误,Claude先承认「你的朋友是对的」。
认错之后,Claude逐步复盘自己错在哪:在极小值处,方程给出的结果其实与极小值条件相符,构不成它原以为的矛盾。
它承认「我犯了一个符号错误」,并标明上界论证成立(✓)、下界论证失败(✗)。这一步的漏洞,是人类发现的。
人机之间的纠错是双向的。
在另一处,是合作者算的一个渐近行为里带了个小错,反过来被Claude挑了出来,还顺手定位到出错的根源。
这更像两个同行在一块儿磨一个证明,而并非谁服务谁。
但真正决定性的,是人类重新定义了整个问题。
Parisi提醒Claude:你根本证不出那个函数永远非负:因为这个方程的解不止一个,大多数解都会上下摆动、反复穿过零线,而你先前用打靶法挑中的,只是其中唯一不摆动、始终待在零线上方的那一个。所以问题从一开始就问偏了:不该问「它一定非负」,而该问「到底有没有一个始终非负的解」。
紧接着,Parisi给出了破局的思路:别死磕那个极限方程,回到更上游的原始方程,重新定义一个随尺度演化的函数,只要证明这个演化过程不破坏非负性、初始条件又非负,就赢了。
Claude照着这条路走下去,把它落成了一个标准的反应扩散方程,再用成熟的极值原理,最终补完了证明。
人类给出破局思路:回到上游方程,定义随尺度演化的函数,只要证明演化不破坏非负性、初始条件又非负即可。设问题、指方向的是人,推导演算的是AI。
换句话说,模型能推、能算、能写代码,也能认错。但发现错误、推翻错误、重新设定问题、指出正确方向的,自始至终是人。
整个过程中,真正的分工是这样的:AI负责推、负责算,人类负责设问题、挑错、核验和拍板。
模型能推出一个证明,但判断它对不对、值不值得留下,依然是人类的工作。
留下的
不只是一个证明
这个故事最有意思的地方,不在于证明本身,而在于它把整个过程都公开了:哪一步是Claude推的,哪一步是人改的,哪一步推倒重来,全都看得见。
这在科研里是个新做法。
过去一篇论文写「我们借助了某工具」,外人无从查证。这一次,AI到底贡献了什么,被做成了任何人都能下载、逐段核对的证据。
大模型的角色正在改变,从写代码、查文献、做摘要的外围,转向参与复杂数学结构推导的核心。
而人类的位置也在转变,转向设定问题、筛选方向、最后把关拍板的角色。
参考资料:
https://x.com/EMostaque/status/2063000615383421400?s=20%20
https://arxiv.org/pdf/2606.03300%20
https://zenodo.org/records/20478428
编辑:元宇