首页 景点排名文章正文

中国AI技术再创新高,为教育界作出巨大贡献,反超美国拉大差距

景点排名 2025年09月23日 04:43 0 admin

文|咸菜

编辑|江娱迟

现在的大语言模型就像准备高考的学生,做纯文本推理题时已经得心应手,但遇到图文结合的综合题就容易翻车。

这背后有两个大麻烦:一是图像、文字混合的题目太多样,平时练的和考场上遇到的差距太大,二是练习题里鱼龙混杂,总有不少错题、偏题,越练反而越糊涂。

最近某高校曹琪博士生和谢彭涛副教授团队搞出了个新模型DreamPRM-1.5,思路挺有意思,不让AI盲目刷题,而是学会给习题挑重点,高质量的题多练,垃圾题少看。

就靠这招,他们在包含30个学科的"终极测验"里,成绩直接超过了GPT-5和Gemini这些国际大牌。​

中国AI技术再创新高,为教育界作出巨大贡献,反超美国拉大差距

从按科目划重点到逐题标难度​

以前的AI训练像粗放式复习,比如把数学、语文按科目划分重点,这就是DreamPRM初代版本的做法,但实际考试时,同一科目里有的题价值高,有的就是浪费时间。​

DreamPRM-1.5玩了把精细操作,给每个训练样本单独标权重,就像好学生整理错题本,会给经典例题画三颗星,偏题怪题直接打叉,他们搞了两种实现方式。

InstanceTable就像给每道题单独写批注,灵活是灵活,但题目一多就记不过来,适合小规模数据集。

中国AI技术再创新高,为教育界作出巨大贡献,反超美国拉大差距

InstanceNet则像总结出一套评分标准,不管多少题都能用这套规则打分,参数量固定,应付大规模训练更在行。​

这种从“按科目加权”到“按样本加权”的升级,让AI能在海量数据里精准抓重点,避免在垃圾数据上浪费算力。​

给AI装个动态调节旋钮​

光有加权规则还不够,关键是权重能跟着效果动态调整,团队用的双层优化框架,就像带反馈的教学系统。

下层优化是学生按当前重点刷题,用样本权重更新模型参数,上层优化是老师根据模考结果调整重点,在元数据集上评估效果后反过来更新权重,这种设计让权重不是死的,而是跟着推理效果实时变动。​

中国AI技术再创新高,为教育界作出巨大贡献,反超美国拉大差距

打分机制也很有讲究,用生成式奖励模型给推理过程每步打分,就像老师批改作文不仅看结论,还会逐段批注,每步推理合理就打“+”,不合理就打“-”,最后算平均分。

训练过程也很实在:先用20k样本冷启动,让模型学会基本的打分规则,再用100k步迭代精调,单卡NVIDIAA100跑了72小时才完成。

中国AI技术再创新高,为教育界作出巨大贡献,反超美国拉大差距

在终极考场上甩开对手​

检验成果的MMMU基准可不是一般的测试,涵盖30个学科、183个子领域,从图表分析到化学结构无所不包,堪称多模态推理的“高考地狱模式”。​

结果相当亮眼:GPT-5-mini基础版考了80分,用DreamPRM-1.5的InstanceTable方案直接冲到84.6分,InstanceNet也有83.6分。

更厉害的是,这成绩超过了GPT-5原版(84.2分)和Gemini2.5Pro(84.0分)这些闭源大模型。​

对比实验很能说明问题:不做加权的对照组只拿79.1分,比基线还低,用了400k大数据的VisualPRM才80.5分,证明数据多不如数据精,经典的Self-consistency方法81.4分,还是拼不过动态加权。​

中国AI技术再创新高,为教育界作出巨大贡献,反超美国拉大差距

网络图片

结语​

DreamPRM-1.5的突破,本质上是让AI训练从“题海战术”转向“精准教学”,在大模型参数竞赛遇到瓶颈的今天,这种精打细算的数据利用方式,可能比盲目扩大参数量更有前途。

就像好老师懂得因材施教,好的AI训练框架也该懂得“因数据施教”,中国团队这次拿出的不仅是个SOTA模型,更提供了一种思路,在数据爆炸的时代,学会筛选和聚焦,比贪多求全更重要。​

未来的AI竞争,或许不再是谁的模型更大,而是谁能更聪明地利用数据,毕竟真正的智慧不在于拥有多少信息,而在于能从中提取多少价值。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap