超越国际数学奥林匹克金牌得主:谷歌 DeepMind AI 系统展现超强几何解题能力

本站 2 月 8 日消息,谷歌旗下人工智能研究实验室 DeepMind 开发的人工智能系统 AlphaGeometry2 在解决国际数学奥林匹克竞赛(IMO)几何问题方面取得了突破性进展,其表现甚至超过了平均金牌得主。

AlphaGeometry2 是 DeepMind 在今年 1 月发布的 AlphaGeometry 系统的改进版本。根据 DeepMind 研究人员最新发表的论文,该 AI 系统能够解决过去 25 年国际数学奥林匹克竞赛中 84% 的几何问题。国际数学奥林匹克竞赛是一项面向高中生的数学竞赛,而 DeepMind 认为,发现解决复杂几何问题(特别是欧几里得几何问题)的新方法可能是实现更强大人工智能的关键。

证明数学定理或逻辑解释定理(例如勾股定理)为何成立,需要推理能力以及从多种可能的步骤中选择解决方案的能力。如果 DeepMind 的观点正确,这些解决问题的技能将成为未来通用人工智能模型的重要组成部分。

本站注意到,去年夏天,DeepMind 展示了一个将 AlphaGeometry2 与 AlphaProof(一种用于形式化数学推理的 AI 模型)相结合的系统,成功解决了 2024 年国际数学奥林匹克竞赛中的 6 个问题中的 4 个。除了几何问题,类似的方法还可以扩展到数学和科学的其他领域,例如辅助复杂的工程计算。

AlphaGeometry2 包含几个核心要素,其中包括谷歌 Gemini 系列 AI 模型中的语言模型和一个“符号引擎”。Gemini 模型协助符号引擎,后者利用数学规则推导问题的解决方案,并为给定的几何定理提供可行的证明。

由于将证明转化为 AI 可理解的格式存在复杂性,可用的几何训练数据匮乏。因此,DeepMind 为 AlphaGeometry2 的语言模型创建了自己的合成数据,生成了超过 3 亿个不同复杂度的定理和证明。

研究团队从过去 25 年(2000 年至 2024 年)的国际数学奥林匹克竞赛中挑选了 45 个几何问题,包括线性方程和需要在平面上移动几何对象的方程,并将其“翻译”成一个更大的 50 个问题的集合(由于技术原因,某些问题需要拆分为两个)。根据论文,AlphaGeometry2 解决了其中的 42 个问题,超过了平均金牌得主40.9 的得分。

不过,该系统也存在局限性。一个技术问题导致 AlphaGeometry2 无法解决涉及可变数量点、非线性方程和不等式的问题。此外,尽管 AlphaGeometry2 不是第一个达到几何问题金牌水平表现的 AI 系统,但它是在如此规模的问题集上实现这一目标的首个系统。

在另一组更具挑战性的国际数学奥林匹克竞赛问题上,AlphaGeometry2 的表现也不尽如人意。DeepMind 团队额外挑选了 29 个由数学专家为竞赛提名但尚未出现在比赛中的问题,AlphaGeometry2 只能解决其中的 20 个。

也许你还喜欢

日本的护肤品适合十八岁以上的年轻

日本的护肤品一直以来备受瞩目,不仅在亚洲市场颇受欢迎,也在全球范

英雄如何召唤异族并挑战天空神殿?全

在《英雄召唤:异族》这款集角色扮演、策略与冒险于一体的手机游戏中,天空神殿作为游

为什么选择日本的免费SaaS CRM工具

在当今数字化时代,企业对客户关系管理的需求越来越迫切。日本的免费Sa

舾蝣降魔篇3D能否重塑经典,再续传奇

在浩瀚的华语电影市场中,周星驰的作品无疑是一颗璀璨的明星,以

全民天团升卡经验概率全,玩法即将迎

《全民天团》作为一款由韩国SM娱乐公司正版授权的音乐类手机游戏,自推出以来便以其独特

被封禁的魔法少女:探究巴比伦汉化版

在互联网的世界中,有许多神秘的故事等待着我们去揭开。今天,我要讲

如何让鸡子变大变粗最简单的方法?

鸡子变大变粗是许多养鸡者们关注的话题,因为这关系到鸡的生长发育和

如何在 4P 营销理论的基础上进行网

:传统4P理论如何玩转网络营销?5个实战技巧让销量翻倍在数字时代,许多企业主仍

龙珠激斗特战队长究竟有多强?基纽队

在《龙珠》系列作品中,基纽队长作为弗利萨手下的第一战将,以其

为什么选择成品视频CRM免费下载?具

成品视频CRM是一款专门为视频制作行业设计的客户关系管理工具。通过使