中国AI技术再创新高，为教育界作出巨大贡献，反超美国拉大差距

景点排名 2025年09月23日 04:43 0 admin

文|咸菜

编辑|江娱迟

现在的大语言模型就像准备高考的学生，做纯文本推理题时已经得心应手，但遇到图文结合的综合题就容易翻车。

这背后有两个大麻烦：一是图像、文字混合的题目太多样，平时练的和考场上遇到的差距太大，二是练习题里鱼龙混杂，总有不少错题、偏题，越练反而越糊涂。

最近某高校曹琪博士生和谢彭涛副教授团队搞出了个新模型DreamPRM-1.5，思路挺有意思，不让AI盲目刷题，而是学会给习题挑重点，高质量的题多练，垃圾题少看。

就靠这招，他们在包含30个学科的"终极测验"里，成绩直接超过了GPT-5和Gemini这些国际大牌。

从按科目划重点到逐题标难度

以前的AI训练像粗放式复习，比如把数学、语文按科目划分重点，这就是DreamPRM初代版本的做法，但实际考试时，同一科目里有的题价值高，有的就是浪费时间。

DreamPRM-1.5玩了把精细操作，给每个训练样本单独标权重，就像好学生整理错题本，会给经典例题画三颗星，偏题怪题直接打叉，他们搞了两种实现方式。

InstanceTable就像给每道题单独写批注，灵活是灵活，但题目一多就记不过来，适合小规模数据集。

InstanceNet则像总结出一套评分标准，不管多少题都能用这套规则打分，参数量固定，应付大规模训练更在行。

这种从“按科目加权”到“按样本加权”的升级，让AI能在海量数据里精准抓重点，避免在垃圾数据上浪费算力。

给AI装个动态调节旋钮

光有加权规则还不够，关键是权重能跟着效果动态调整，团队用的双层优化框架，就像带反馈的教学系统。

下层优化是学生按当前重点刷题，用样本权重更新模型参数，上层优化是老师根据模考结果调整重点，在元数据集上评估效果后反过来更新权重，这种设计让权重不是死的，而是跟着推理效果实时变动。

打分机制也很有讲究，用生成式奖励模型给推理过程每步打分，就像老师批改作文不仅看结论，还会逐段批注，每步推理合理就打“+”，不合理就打“-”，最后算平均分。

训练过程也很实在：先用20k样本冷启动，让模型学会基本的打分规则，再用100k步迭代精调，单卡NVIDIAA100跑了72小时才完成。

在终极考场上甩开对手

检验成果的MMMU基准可不是一般的测试，涵盖30个学科、183个子领域，从图表分析到化学结构无所不包，堪称多模态推理的“高考地狱模式”。

结果相当亮眼：GPT-5-mini基础版考了80分，用DreamPRM-1.5的InstanceTable方案直接冲到84.6分，InstanceNet也有83.6分。

更厉害的是，这成绩超过了GPT-5原版（84.2分）和Gemini2.5Pro（84.0分）这些闭源大模型。

对比实验很能说明问题：不做加权的对照组只拿79.1分，比基线还低，用了400k大数据的VisualPRM才80.5分，证明数据多不如数据精，经典的Self-consistency方法81.4分，还是拼不过动态加权。

网络图片

结语

DreamPRM-1.5的突破，本质上是让AI训练从“题海战术”转向“精准教学”，在大模型参数竞赛遇到瓶颈的今天，这种精打细算的数据利用方式，可能比盲目扩大参数量更有前途。

就像好老师懂得因材施教，好的AI训练框架也该懂得“因数据施教”，中国团队这次拿出的不仅是个SOTA模型，更提供了一种思路，在数据爆炸的时代，学会筛选和聚焦，比贪多求全更重要。

未来的AI竞争，或许不再是谁的模型更大，而是谁能更聪明地利用数据，毕竟真正的智慧不在于拥有多少信息，而在于能从中提取多少价值。

无人机跨越山海借“东风”全球起航

原来 iPhone 17 基础款除了 120Hz 高刷，还有这么多升级啊！

发表评论

中国AI技术再创新高，为教育界作出巨大贡献，反超美国拉大差距

从按科目划重点到逐题标难度

给AI装个动态调节旋钮

在终极考场上甩开对手

结语

无人机跨越山海借“东风”全球起航

原来 iPhone 17 基础款除了 120Hz 高刷，还有这么多升级啊！

热门文章

最新文章

中国AI技术再创新高，为教育界作出巨大贡献，反超美国拉大差距

从按科目划重点到逐题标难度​

给AI装个动态调节旋钮​

在终极考场上甩开对手​

结语​

无人机跨越山海 借“东风”全球起航

原来 iPhone 17 基础款除了 120Hz 高刷，还有这么多升级啊！

热门文章

最新文章

从按科目划重点到逐题标难度

给AI装个动态调节旋钮

在终极考场上甩开对手

结语

无人机跨越山海借“东风”全球起航