2026世界杯

2026世界杯

开云(中国) 留给东谈主类数学家的赏格未几了!谷歌DeepMind连气儿解决9谈埃尔德什问题

发布日期:2026-05-29 16:32 来源:未知 作者:admin 浏览次数:

开云(中国) 留给东谈主类数学家的赏格未几了!谷歌DeepMind连气儿解决9谈埃尔德什问题

AI 进攻数学界的速率太快了。

OpenAI 前脚刚用里面模子随性埃尔德什的 80 年单元距离问题,谷歌 DeepMind 后脚就解决一个通常卡了东谈主类56 年的埃尔德什数学贫穷——

最新发布AlphaProof Nexus,一套由 Gemini 驱动的智能体框架,一动手便是9 个埃尔德什绽开问题

除了这 9 谈,它还顺遂证明了 OEIS 整数序列百科里的 44 个揣度、措置了沿路摈弃 15 年的代数几何贫穷、还转变了凸优化限度里一个沿用已久的表面规模。

推理资本呢?每谈题几百好意思元,整套证明代码也完全开源放在了 GitHub 上。

这篇论文共有 20 位作家,其中的Aja Huang,亦然 2016 年AlphaGo的中枢究诘员。

56 年没东谈主作念出来的题,AI 给了什么谜底

AlphaProof Nexus 解决的这几谈题,咱挑三谈最有兴致的说说。

Erd ő s  ,1970 年建议,悬置 56 年

这谈题问的是:你能不行找出一个无限大的整数汇聚,知足两个听起来很别扭的条目:

第一,恣意从中挑三个不同的数字 a、b、c,a 永久不行整除 b 加 c 的和。

第二,这组数不行太零碎,在当然数里要保抓一定的密度。

简短通晓便是,这群数字之间,既不行一个数整除另一个数,也不行一个数整除另外两个数的和,同期数字还要散布得相对密集,不行只挑寥寥几个数看风使舵。

从 1970 年运转,就没东谈主能给出这个汇聚的好意思满构造,多样局部施展有,但恒久拼不成一个合座解。

AI 的解法是用中国剩余定理把大问题拆成许多个独处的区块,每个区块里面用三项等差数列的隐敝集来知足不休,然后把系数区块拼回一个好意思满的无限集。

Erd ő s  ,1996 年建议,30 年莫得定论

这谈题听着就更奇怪了。

设想两个数字汇聚:第一个汇聚里全是"在三进制下只由数字 0 和 1 构成的整数",第二个汇聚里全是"在四进制下只由数字 0 和 1 构成的整数"。把这两个汇聚里所稀少字两两相加,取得一个新汇聚。

问:这个新汇聚里的数字在当然数中出现的频率(数学上叫下密度)是不是正的?

直观上你可能会以为,两种汇聚包含的数字原本就不算许多,加起来应该也挺疏淡的。

但疏淡到什么进度?是透彻稀到密度归零,如故若干保抓少量正密度?

这中间的永逝杰出奥秘,1996 年建议后一直没定论。

AI 的谜底是:密度为零。

证明想路是 log ₄除以 log ₃是乖谬数。这意味着 3 的幂次和 4 的幂次不错以恣意精度相互靠拢。

运用这少量,AI 构造了一个归纳性疏淡化论证:不绝找到两个险些对都的表率,让密度以 0.99 的比率一步步衰减,直到透彻归零。

一个纯数论的性质,解决了一个组合几何的问题。

Erd ő s  ,1992 年建议,卡了东谈主类 34 年。

这是个平面几何题,AI 证明了存在这样一个无限膨胀的平面点集:

你从中恣意挑出有限个点,总能发现其中大部分点是不共线的——

豪爽截一段,看起来都挺平常,但当你试图把这个无限汇聚拆分红有限个"绝对莫得任何三点共线"的子集时,办不到。

一个汇聚的每个有限局部都平常,但合座坚忍得不可拆分。这种全局与局部的张力,是组合几何里最难的那一类问题。

AI 把完全图的每条边映射到平面上一个点,用二次多项式编码坐标,再拉上无尽 Ramsey 定理完成证明,开云(中国)把一个几何问题翻译成了图论和逻辑的讲话。

除了这三谈,还有六谈诀别在整除集构造、范德瓦尔登数症结、西顿集寂寥点、汇聚拆分密度等限度。

同期,AlphaProof Nexus 还在 OEIS 整数序列百科里证明了 44 个绽开揣度,在代数几何那儿解决了沿路希尔伯特函数对数凹性的 15 年悬案,凸优化那儿转变了一个锚定梯度下落法的表面规模。

菲尔兹奖得主陶哲轩也曾辅导过,AI 咫尺解决埃尔德什问题的实质成功率大致在 1-2%,此次谷歌的系统挑战了 353 谈题,解开 9 谈,比例刚好对上了。

用几百好意思元算力换沿路 56 年贫穷

AlphaProof Nexus 的架构中枢用一句话就能说澄清,Gemini 3.1 Pro 生成 Lean 讲话证明设施→ Lean 编译器逐行查验→报错径直反映给模子→模子阐述报错修改→再查验→轮回到全部通过。

好家伙,这有点像平时写代码,只不外咫尺 Debug 的是数学定理……

在这套框架里,DeepMind 计算了四个 Agent。

最简短的 Agent A是同期启动多个独处子 Agent,先靠 Gemini 3.1 Pro 梳通晓题想路,动手编写证明代码。

写完坐窝交给编译器核验,一朝报错,演叨信息就会传回模子,让它不绝修改、重试,直到通关。

全程莫得额外辅助器用,纯靠写代码 + 查错轮回。

Agent B 多了一样东西,AlphaProof。

AlphaProof 是 DeepMind 之前特别为奥数级别题目磨练过的强化学习证明器用。

当 Agent A 花式在某个小设施上反复卡住、编译器反复报错也修不外来时,Agent B 不错调用 AlphaProof 作念一次强化学习驱动的树搜索,特别袭击这个局部难点。

Agent C 引入了进化算法的想路。

前边两种 Agent 的子 Agent 都是各自独处职责的,互不换取。

Agent C 是系数子 Agent 分享一个证明草图种群,每一个子模块都会产出不同的证明草稿。

开云app官方在线入口

然后由另一个模子从合感性、澄清度、新颖性三个维度给每一份草稿打分,用 Elo 评分系统排行。

高分草稿会相互组合,滋生出新解法,低分草稿径直淘汰,通盘种群在证明空间里作念进化搜索。

Agent D 是全功能完全体,进化筛选想路 + 专项器用攻克难点 + 大模子逻辑推理,三股力量在一个框架里协同,亦然此次批量破解贫穷的主力。

这样看下来,我以为最强的 Agent D 应该会碾压一切,Agent A 只当个对照组。

成果没料想论文里标明最简短的 Agent A,通常能解出全部 9 谈题。

莫得进化算法,莫得 AlphaProof,就一个 LLM 轮回加编译器反映的 Agent A,仅仅在贫穷上更用钱少量。

究诘团队把原因归为两个:

一是 Gemini 3.1 Pro 自己的才略仍是填塞强了;

二是 Lean 编译器的那层实打实的纠错反映,对 AI 的领导作用,远比东谈主们料想的更大。

这个成果粗心也在预示着,翌日跟着大模子才略抓续升级,复杂的多器用组合系统,可能不再是刚需,只用大模子 + 专科校验器用这套简短轮回,就能措置大无数数学贫穷。

况且这套决策的上风也体咫尺资本上,单题仅需几百好意思元。

埃尔德什生前为这些贫穷诞生了赏格,仅仅他不会料想——

解开这些谜题的可能不是东谈主类灵敏,而是算力。

论文地址:https://arxiv.org/abs/2605.22763v1

Github 地址:https://github.com/google-deepmind/alphaproof-nexus-results

参考畅通:

[ 1 ] https://x.com/pushmeet/status/2058936037754224998

[ 2 ] https://the-decoder.com/google-deepminds-alphaproof-nexus-solves-decades-old-math-problems-for-a-few-hundred-dollars/

—  接待 AI 家具从业者共建  —

� �「AI 家具常识库」是量子位智库基于经久家具库跟踪和用户动作数据推出的飞书常识库,旨在成为 AI 行业从业者、投资者、究诘者的中枢信息重要与决策援手平台。

一键神思 � � 点亮星标

科技前沿施展逐日见开云(中国)