产品上线才一周,这个初创团队就做了件大胆的事——他们决定彻底重写后端。而且这次不是继续用炙手可热的 Python,而是换成了 Node。乍听之下,这像...
2025-11-07 1
新民晚报记者今天从上海人工智能实验室获悉,实验室近日在开源“通专融合”方面取得新进展。其P1物理推理模型系列,在通用模型的基础上,通过大规模、多阶段强化学习重点升级了物理专业能力。
其中,P1-235-A22B在2025年国际物理奥林匹克大赛(IPhO)拿下金牌,成为首个也是唯一获得金牌的开源模型;在覆盖2024-2025年全球13场顶级物理竞赛的HiPhO基准测试中,与Gemini-2.5-Pro并列奖牌榜第一。
P1在IPho 2025中的得分情况
初步具备解决复杂物理问题能力
物理推理是AI理解与塑造现实世界的核心能力。国际物理奥林匹克(IPhO)等顶尖赛事,以其对复杂推理和深度物理理解的高标准,成为检验物理智能对现实认知能力的重要标尺。
在国际物理奥林匹克中,P1-235-A22B在满分30的情况下,获得21.2分,是首个也是唯一获得金牌的开源模型。
在面对一道大气压相关的物理题时,P1给出的4个小问题答案均正确,且过程完全符合评分标准。
为了准确评估物理奥赛的表现,研究团队构建了HiPhO(High School Physics Olympiad)基准测试,这是首个专注于最新物理奥赛、采用人类对齐评估的基准。HiPhO涵盖了2024-2025年最新的13场奥林匹克级别的物理竞赛,评估时采用官方评分标准,对答案和过程进行细粒度评分,与人类评审严格对齐,确保得分准确——由此,每个模型的考试得分可直接与人类选手以及金银铜牌分数线进行比较。
上海AI实验室透露,P1-235B-A22B取得12金1银佳绩,与Gemini-2.5-Pro并列奖牌榜第一,金牌数超越了GPT-5、Grok-4等主流闭源模型。
P1在国际物理奥林匹克、HiPhO基准测试中表现突出,说明模型已初步具备应对现实世界中复杂物理问题的潜力,这一突破为大模型进一步处理复杂推理任务,进而解决科学发现等难题奠定了基础。
P1在HiPhO基准测试上的得分情况
实现物理推理能力持续提升
据介绍,P1在物理推理方面的卓越表现,离不开高质量数据和多阶段强化学习策略。
研究团队通过高效的提取和标注流程,构建了包含数千条奥赛级别题目的训练数据集。每条数据均具有完整的上下文信息、可验证答案以及标准解题过程,用于强化学习训练。
新民晚报记者了解到,P1采用多阶段强化学习流程进行训练。为了实现稳定高效的训练,团队在每个阶段应用两项关键策略:一是上下文窗口扩展,随着训练的推进,逐步扩展模型最大生成长度,使模型能够探索更长的推理链;二是通过率过滤,在训练前,基于通过率统计对数据进行筛选,排除过于简单或过于困难的任务。
此外,为了突破单一模型的性能极限,研究团队开发了一套专为物理推理设计的协同进化多智能体系统。它由视觉、逻辑和审核三个交互式模块组成,通过自我验证与反思迭代,实现了物理推理能力的跃升。
如果任一阶段验证失败,详细的错误报告会被发送回逻辑模块,进行反思修订解答。通过这种协同进化协作,系统持续提升大模型对复杂物理问题的推理质量和鲁棒性。
原标题:《AI喜提物理奥赛金牌!来自上海的P1模型,如何开启“封神”之路?》
栏目编辑:马丹 题图来源:东方IC 图片来源:上海AI实验室
来源:作者:新民晚报 郜阳
相关文章
产品上线才一周,这个初创团队就做了件大胆的事——他们决定彻底重写后端。而且这次不是继续用炙手可热的 Python,而是换成了 Node。乍听之下,这像...
2025-11-07 1
沧州晚报2025-11-06 16:40:3911月5日消息,小米通话发布公告称,将于2025年12月3日停止服务。公告称,由于产品调整,小米通话将于...
2025-11-07 1
新民晚报记者今天从上海人工智能实验室获悉,实验室近日在开源“通专融合”方面取得新进展。其P1物理推理模型系列,在通用模型的基础上,通过大规模、多阶段强...
2025-11-07 1
贴吧,咋还没凉呢?2015年,贴吧注册用户超过了10亿,占据中文互联网的半壁江山。如今,贴吧生态全面崩塌,活跃用户不及巅峰期的3%。互联网,向来是得用...
2025-11-07 0
昨天上午,第八届中国国际进口博览会在国家会展中心(上海)隆重开幕。作为具身智能领域的领先企业,智元机器人携全系列产品矩阵深度参与本届盛会,以“两大主题...
2025-11-07 1
《AI竞赛:中国的加速器》 ——当西方忙着立规矩时,中国已经在给数据中心打折供电 你以为AI竞赛拼的是算法?其实拼的是“电表读数”。英伟达掌门人黄仁勋...
2025-11-07 2
【世运电路:公司与小鹏自2021年开始合作】财联社11月6日电,世运电路在互动平台表示,公司与小鹏自2021年开始合作,从车上控制域开始到中央控制域,...
2025-11-07 3
11月6日,起点新闻·西部网记者从西安建筑科技大学获悉,该校资源工程学院能源管道风险与可靠性研究团队成功构建了老龄管道损伤演化模型,揭示了不同蚀坑下裂...
2025-11-07 2
发表评论