牌奥特曼为GPT-5献上「核弹级」预热一盘大棋!OpenAI「截胡」IMO金
这次的通用推理模型□…•○,在推理时间跨度上实现了逐步进步△=◁:从GSM8K(顶尖人类约 0■▽▼=.1 分钟)→ MATH基准(约1分钟)→ AIME(约10分钟)→ IMO(约100 分钟)○•☆。
他们估计想在这个重要节点上▼▼▪,利用OpenAI拿下IMO金牌这事★☆▽◆◁◆,为GPT-5来波神助攻■-◇▽☆□。
但实际上□•○◇▪,它的能力是一个巨大的范围-●◇□▼=。你给它提供的计算资源▲●▽☆■◇、给它的指令有多好•□◆•◆,以及你要求它如何输出结果◇○▪=,都会导致最终效果产生天壤之别-★●▷•。
提交阶段…=◁○,每位队员提交解答■◆-★,但队长只选出「最佳」解答递交竞赛◆■-,其余的都弃之不用•△◇。
以人类竞赛举个栗子◇●: 在刚结束的IMO竞赛中▼▲●•,各国派出六名高中生选手组成的团队(由职业数学家担任领队)▲▽○★。
GPT-5是一个实验性模型◁▲,他指出•▽★△☆▽,用了一些将在未来模型中使用的新研究技术■○。
陶哲轩简明扼要▪-…▷牌奥特曼为GPT-5献上「核弹级」预热,在缺乏受控测试环境的情况下•◇•◇◇,AI的数学能力难以准确评估▪◁●▪◁。
昨天…▷△,全网几乎都被OpenAI拿下IMO金牌刷屏了▽▼◇。自家研究员纷纷现身=-□□=△,宣传OpenAI神秘模型的强大★▪…▼。
在此期间…◁△,队长会引导学生采用更有利的方法▼●□▽▷●,并在某个学生花费过多时间在他们知道不太可能成功的方向时进行干预=◇▼•◆。
学生可以无限使用计算器★■△□★-、计算机代数软件包□★○◁■、形式化证明助手--★•▽▼、教科书或上网搜索▷•■-▷。
考虑一下如果我们以其他方式改变奥林匹克竞赛的形式=☆△▼◇●,其难度水平会发生什么变化▷•●▪○?
谷歌DeepMind研究员Archit Sharma调侃道▽-■◆,「恭喜◇…●•…•!居然比我们先官宣了——现在P6是新标杆了吗」○=◆◇◆☆?
如果团队中的学生都未能获得令人满意的解决方案■…,团队负责人将不会提交任何解决方案•◇▽,并且会悄然退出比赛▪▪△△,而他们的参与也永远不会被记录◇△▼一盘大棋!OpenAI「截胡」IMO金。
但由于内部审核慢◆▼◁▪▲,需等下周一市场部批准后□•●▲,DeepMind才能官宣具体情况▷◆●◆◇□。
爆料称◆○,谷歌DeepMind的AI模型早在本周五★▽◁,也就是两天前○□▲,便拿下了IMO金牌◁•◇▷○。
它是一个融合了全新实验性通用技术的推理LLM▷=◇△-●,使其在难以验证的任务上表现得更好▼◁◆◆△▲。
领队让六人团队同时处理同一个问题■▪,相互交流各自的部分进展和遇到的死胡同◆……▷○。
他指出□◇▽,很多人对AI有个误解○○,就是把它的能力看成是「行」或「不行」两个极端▲▲●。
简而言之•-•…=,OpenAI这次的通用推理模型在「通用强化学习和测试时计算扩展方面开辟了新天地◁■★-。」
期间选手严禁交流(包括与领队)=△,仅可向监考询问题目表述问题…=•。领队仅在评分环节向评审委员会申诉▪…□,不直接参与解题▪■◆▷。
通过这样做●●◆▼●◆,就可以获得一个能够像人类数学家一样◁…,构建复杂且无懈可击论证的模型▷◆▽。
OpenAI推理研究员Noam Brown指出=…••,这个模型并非专门为国际数学奥林匹克竞赛(IMO)设计•=▲。
他称▼▷…▼▽,OpenAI拿下IMO金牌这事-…•,需要强调的是◇□●•,「这是一个LLM在做数学题△▽,而不是一个特定的形式化数学系统这是朝着AGI迈进的主要部分▲▲■-▼。」
「这警示我们=★▷,在缺乏统一测试标准的情况下■--●□○,贸然对比不同AI模型(或AI与人类选手)的IMO表现如同比较苹果与橙子▷▪▽,没有对比意义可言•○-,」陶哲轩指出△○△◇•。
都知道◇▲◁=,IMO被视为衡量中学生数学能力的金标准▽=◁:金牌线分(即完美解答五题)=●●,完整解出一题即可获「荣誉提名」■▷=◁■。
其实◇●-◇☆,奥特曼之所以这么「积极主动」◁○☆△,也不难发现是在为GPT-5发布提前铺路呢▪□▷△=!
「重要的是□○◆●▽,它的思考效率也更高□…△★。而且在测试时计算能力和效率方面还有很大的提升空间□▽••。」
IMO金牌的头魁原来是谷歌DeepMind•-,只是因为内部流程审批慢○▲▷▼★•,被OpenAI抢占先机•◆-▪■,占尽风头▷▲△◁-•。那助OpenAI拿下IMO金牌的模型有何特殊之处☆◇◆▷?它背后的争议为何引发菲尔兹奖得主陶哲轩公开出面发声☆-☆▲▽?
IMO问题正是这一挑战的完美体现■★■★•◇:证明过程长达数页…◆=,专家需要花费数小时来评分•■。
OpenAI瞅中了时机☆▷▼◆,用全新通用推理模型在IMO刷题后☆▽★-△,立即公开了结果▽▪▲◇。