56 年无人解开的数学难题，被谷歌的新 AI 突破了

去年，AI 能解出博士级别的数学题，已是轰动一时的大新闻；而今年，能攻克「未解之谜」级别的数学难题的 AI 已经来了。

5 月 15 日，Google DeepMind 发布了全新编程智能体 AlphaEvolve。

不同于传统的编程 Agent，它专注于通用算法的自动发现与持续优化。顾名思义，AlphaEvolve 擅长在「进化」中寻找更优解，它模拟自然选择机制，能在代码中不断迭代、演化出创新算法。

只要问题能用程序表达、结果能用函数评估，AlphaEvolve 就能迭代算法。Google 表示，在组合数学、几何学、数论等超过 50 个未解问题中应用后，AlphaEvolve 在约 20% 的问题上超越了人类现有解法。

DeepMind 研究员 Matej Balog 表示：「AlphaEvolve 在十多个公开的数学问题上取得了突破。但最让我激动的是：它找到了 56 年以来，4x4 复数矩阵乘法算法的首次改进。这个结果，来自它自创的一种复杂搜索算法。」

AlphaEvolve 的价值不仅在数学，它展现出的是一种通用的「算法发现能力」。Balog 表示：「我们对 AlphaEvolve 的应用，还只是触及表层。」

问题能用程序表达、结果能用函数评估，AlphaEvolve 就能迭代算法

Google DeepMind 表示，AlphaEvolve 能够在多个复杂问题中取得突破，关键在于其背后运作的是一整套自动进化机制，能持续优化算法并提升性能。

从本质上看，AlphaEvolve 解决的是一个通用的黑盒优化问题：maximize h(f)。其中，f 是由大型语言模型生成的程序，h 是衡量该程序质量的评估函数。

在实际流程中，AlphaEvolve 首先通过提示采样器（prompt sampler）组装提示词，引导语言模型生成代码。DeepMind 使用了两个不同的 Gemini 模型协同工作：Gemini Flash 以更高速度生成大量候选方案，扩展思路的广度；Gemini Pro 则提供更深入的结构性建议。二者结合，使模型能产出具备实际可行性和算法深度的程序。

生成的程序会被送入自动评估系统，经过验证、运行和打分后，写入程序数据库。数据库中运行着一套进化算法，会从已有程序中挑选表现最好的方案，为下一轮提示提供方向，不断迭代出更优解。

AlphaEvovle 的一个核心点就是这套自动评估指标。它能对生成程序进行验证、运行和评分。每一个程序都会被 h 函数衡量其准确性、运行效率、代码质量等维度。这些评分标准是客观、量化的，使 AlphaEvolve 能够在无需人类直接干预的前提下持续优化。

56 年无人解开的数学难题，被谷歌的新 AI 突破了

不过，这里的 h 函数依然由人类研究人员定义，可以是准确率、运行时间，甚至代码可读性等维度的组合。AlphaEvolve 负责的只是在给定 h 的前提下去寻找最优的 f。对于一些数学问题或研究任务，Google 也可能预设 h。

这也说明了 AlphaEvolve 当前的边界：它适用于那些「成果是否优秀」可以自动量化判断的问题。但如何定义「优秀」，仍需人来给出。在需要人类实验才能确定是否优秀的问题上，AlphaEvolve 就无法评估了。

以 DeepMind 研究员提到的 4×4 复数矩阵乘法为例，研究人员设置了一组任务目标，包括达到的最低乘法次数（即张量分解的秩）以及达到该结果的随机种子比例。这些信号构成了 AlphaEvolve 的优化目标，引导它在复杂的搜索空间中稳步「爬山」。

AlphaEvolve 从问题定义出发，基于标准的梯度优化流程（包括初始化器、重建损失函数、Adam 优化器等），演化出了一系列高质量的张量分解算法。最终，它在 14 个矩阵乘法结构上超越了已知最优结果。其中最引人注目的，是它提出了历史上第一个能用 48 次乘法完成 4×4 复数矩阵乘法的算法——打破了 56 年未被突破的记录。