刚刚,OpenAI 官宣:IOI 金牌收入囊中!
其推理模型在今年 IOI 线上竞赛中成绩刷新纪录:
总分 533.29,在全球 330 名人类选手中总排名位列第六;而在所有AI 参赛者中,稳居第一。
PS:AI 没比过的五个人里,有三个都是咱中国人,分别是刘恒熙(宁波市镇海中学)、范斯喆(浙江省诸暨市海亮高级中学)、陈昕阳(杭州第二中学)。
有意思的是,OpenAI 表示,这次并未为 IOI 训练新的参赛模型,而是集成了多个通用推理模型参赛。
并且这个夺金系统和前不久 OpenAI 自称在 IMO 中夺金的,还是同一个。
从成绩上来说,此 AI 推理系统相比去年模型在 IOI 上的表现进步了不止一点半点。
IOI 2024 OpenAI 还专门在 o1 基础上进行针对性训练,最终得到的 o1-ioi,在严格的比赛规则下仅拿到 213 分。
今年靠通用模型直接夺金,排名大跃升,网友直呼震撼。
不过,前段时间 OpenAI 自称模型拿下 IMO 金牌一事引发不少争议,这次面对 IOI 的成绩,网友们明显谨慎了许多:
到底是真的很了不起的成就,还是又一个营销噱头……
与此同时,还有不少网友喊话"还我 4o "。
更有意思的是,马斯克突然发布了 IOI Benchmark 排名,结果显示 Grok 4 在编码方面超越 GPT-5 获得第一(doge)。
来看这次 OpenAI 推理系统夺金细节。
和人类一样,5 小时、50 次限制
IOI(国际信息学奥林匹克竞赛)作为是全球中学生计算机科学领域的最高级别赛事,有着严苛且标准化的赛制:
参赛学生需历经 2 天赛程,每天在 5 小时内独立解决 3 道高难度算法题,全程断网且无法借助外部资料,最终提交 C++ 代码方案,由隐藏测试用例自动评分。
IOI 2025 总共有来自 84 个国家的 330 名参赛者参赛。满分 600 分,金牌分数线是 438.30 分,最终只有 28 名参赛者获得金牌。
OpenAI 表示他们正式参加了 IOI 的线上 AI 赛道,规则和人类参赛者一样,有 5 小时的时间限制和 50 次的提交次数限制。
并且 AI 系统在竞赛过程中全程未使用互联网或检索增强生成(RAG)技术,仅能使用基础的终端工具。
具体来说,他们整合了几个强大的推理模型,生成候选程序,运行这些程序,然后提交最优解。唯一的辅助工作是:挑选要提交的尝试内容,并与竞赛 API 交互。
在 IOI 线上 AI 赛道中,通过 API 获取题目并提交解答,不会接受竞赛组织者的直接监督。
OpenAI 最新 AI 推理系统的表现超越 98% 的参赛者,不论是成绩还是方法上都和去年形成鲜明对比。
在 IOI 2024 中,OpenAI 使用了 o1-ioi 模型,这是一个在 o1 基础上针对编程任务进行强化学习微调的专用模型。
o1-ioi 严重依赖一套复杂且由人工设计的 test-time 推理策略(类似 AlphaCode 的人工设计的 test-time 推理策略),包括:
为每个子任务生成 10000 个候选解
基于模型自生成的测试用例对解法进行聚类和排序
结合学习到的评分函数来筛选最终提交的 50 个方案
尽管投入了大量工程技巧,o1-ioi 在 IOI 2024 中仅获得 213 分,排名第 49 百分位,与铜牌失之交臂。
One More Thing
谢赛宁团队前段时间推出了一个包含来自 IOI、Codeforces 和 ICPC 的竞赛级编程问题的实时基准测试—— LiveCodeBench Pro。
GPT-5 最新测试成绩出炉:
GPT-5 Thinking 在 2025 年第一季度的测试组中完成了突破,是唯一一个解出难题分组的模型,而且这还不是更高级的" Thinking Pro "版本。
平均响应长度方面,GPT-5 超过 10 万 token,是 o3 的 3 倍。
参考链接:
[ 1 ] https://x.com/OpenAI/status/1954969035713687975
[ 2 ] https://x.com/rohanpaul_ai/status/1954992741101998099
[ 3 ] https://x.com/wenhaocha1/status/1954751124050989213
[ 4 ] https://x.com/elonmusk/status/1955047197487272362
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 希望了解 AI 产品最新趋势?
量子位智库「AI 100」2025 上半年
「旗舰产品榜」和「创新产品榜」
给出最新参考� �
� � 点亮星标 � �
科技前沿进展每日见
老虎配资提示:文章来自网络,不代表本站观点。