文|咸菜编辑|江娱迟现在的大语言模型就像准备高考的学生,做纯文本推理题时已经得心应手,但遇到图文结合的综合题就容易翻车。这背后有两个大麻烦:一是图像、...
2025-09-23 0
文|咸菜
编辑|江娱迟
现在的大语言模型就像准备高考的学生,做纯文本推理题时已经得心应手,但遇到图文结合的综合题就容易翻车。
这背后有两个大麻烦:一是图像、文字混合的题目太多样,平时练的和考场上遇到的差距太大,二是练习题里鱼龙混杂,总有不少错题、偏题,越练反而越糊涂。
最近某高校曹琪博士生和谢彭涛副教授团队搞出了个新模型DreamPRM-1.5,思路挺有意思,不让AI盲目刷题,而是学会给习题挑重点,高质量的题多练,垃圾题少看。
就靠这招,他们在包含30个学科的"终极测验"里,成绩直接超过了GPT-5和Gemini这些国际大牌。
以前的AI训练像粗放式复习,比如把数学、语文按科目划分重点,这就是DreamPRM初代版本的做法,但实际考试时,同一科目里有的题价值高,有的就是浪费时间。
DreamPRM-1.5玩了把精细操作,给每个训练样本单独标权重,就像好学生整理错题本,会给经典例题画三颗星,偏题怪题直接打叉,他们搞了两种实现方式。
InstanceTable就像给每道题单独写批注,灵活是灵活,但题目一多就记不过来,适合小规模数据集。
InstanceNet则像总结出一套评分标准,不管多少题都能用这套规则打分,参数量固定,应付大规模训练更在行。
这种从“按科目加权”到“按样本加权”的升级,让AI能在海量数据里精准抓重点,避免在垃圾数据上浪费算力。
光有加权规则还不够,关键是权重能跟着效果动态调整,团队用的双层优化框架,就像带反馈的教学系统。
下层优化是学生按当前重点刷题,用样本权重更新模型参数,上层优化是老师根据模考结果调整重点,在元数据集上评估效果后反过来更新权重,这种设计让权重不是死的,而是跟着推理效果实时变动。
打分机制也很有讲究,用生成式奖励模型给推理过程每步打分,就像老师批改作文不仅看结论,还会逐段批注,每步推理合理就打“+”,不合理就打“-”,最后算平均分。
训练过程也很实在:先用20k样本冷启动,让模型学会基本的打分规则,再用100k步迭代精调,单卡NVIDIAA100跑了72小时才完成。
检验成果的MMMU基准可不是一般的测试,涵盖30个学科、183个子领域,从图表分析到化学结构无所不包,堪称多模态推理的“高考地狱模式”。
结果相当亮眼:GPT-5-mini基础版考了80分,用DreamPRM-1.5的InstanceTable方案直接冲到84.6分,InstanceNet也有83.6分。
更厉害的是,这成绩超过了GPT-5原版(84.2分)和Gemini2.5Pro(84.0分)这些闭源大模型。
对比实验很能说明问题:不做加权的对照组只拿79.1分,比基线还低,用了400k大数据的VisualPRM才80.5分,证明数据多不如数据精,经典的Self-consistency方法81.4分,还是拼不过动态加权。
网络图片
DreamPRM-1.5的突破,本质上是让AI训练从“题海战术”转向“精准教学”,在大模型参数竞赛遇到瓶颈的今天,这种精打细算的数据利用方式,可能比盲目扩大参数量更有前途。
就像好老师懂得因材施教,好的AI训练框架也该懂得“因数据施教”,中国团队这次拿出的不仅是个SOTA模型,更提供了一种思路,在数据爆炸的时代,学会筛选和聚焦,比贪多求全更重要。
未来的AI竞争,或许不再是谁的模型更大,而是谁能更聪明地利用数据,毕竟真正的智慧不在于拥有多少信息,而在于能从中提取多少价值。
相关文章
文|咸菜编辑|江娱迟现在的大语言模型就像准备高考的学生,做纯文本推理题时已经得心应手,但遇到图文结合的综合题就容易翻车。这背后有两个大麻烦:一是图像、...
2025-09-23 0
近日,探月与航天工程中心组织召开了第九批月球科研样品借用申请评审会。经月球样品专家委员会评审,探月与航天工程中心审核并报国家航天局批准,最终25家科研...
2025-09-23 0
如何推动人工智能技术全方位、深层次、高水平赋能新型工业化?省政府近日发布的《河南省加快人工智能赋能新型工业化行动方案(2025—2027年)》给出了答...
2025-09-23 0
Google宣布旗下Gemini AI助手已正式登陆Google TV智能电视平台,首批支持设备为TCL新发布的QM9K系列电视,后续年内将扩展至更多...
2025-09-23 0
【来源:中国消费者报•中国消费网】中国消费者报福州讯(记者张文章)9月19日,福州市市场监管局公布一批直播电商违法典型案例,充分发挥典型案例警示教育作...
2025-09-23 0
企查查APP显示,近日,广东福诺辰光电子科技有限公司成立,法定代表人为马兹斌,注册资本为1000万元,经营范围包含:智能无人飞行器制造;5G通信技术服...
2025-09-23 0
北京商报讯(记者 魏蔚)9月19日,用户在最新版微信的公众号和视频号评论区输入“@元宝+你的问题”,即能触发元宝,部分场景需现点击评论框的@符号,从列...
2025-09-23 0
近年来,尽管显示行业市场需求一度承压,但是Mini LED产品却成为逆势增长的亮点。据洛图科技数据显示,2025年上半年中国市场Mini LED电视销...
2025-09-23 0
发表评论