10月21日,中文精确指令遵循测评基准(SuperCLUE-CPIF)正式发布,文心X1.1以75.51分位居国产大模型第一,在任务类型、指令数量两类...
2025-10-22 0
10月21日,中文精确指令遵循测评基准(SuperCLUE-CPIF)正式发布,文心X1.1以75.51分位居国产大模型第一,在任务类型、指令数量两类划分中均为国内榜首,文心X1.1在实际生产环境中应用具有显著优势。
本次测评涵盖GPT-5(high)、DeepSeek-V3.2-Exp-Thinking、Claude-Sonnet-4.5-Reasoning、Gemini-2.5-Pro等共10个国内外模型参与。基于实际生产环境特点,SuperCLUE-CPIF重点评估大型语言模型(LLM)在中文环境下的精确遵循复杂、多约束指令能力,重点评估模型将自然语言指令转化为符合所有要求的具体输出的能力。测评结果显示,国产主流大模型中,文心X1.1以75.51分位居国产大模型第一,DeepSeek-V3.2-Exp-Thinking和Hunyuan-T1-20250822分别以73.98分和65.82分位居国内二、三。
SuperCLUE-CPIF中文精确指令遵循测评总榜,文心X1.1位居国内第一
文心大模型X1是基于文心大模型4.5训练而来的深度思考模型,升级后的X1.1主要采用了迭代式混合强化学习训练框架,一方面通过混合强化学习,同时提升通用任务和智能体任务的效果;另一方面通过自蒸馏数据的迭代式生产及训练,不断提升模型整体效果。
据了解,文心大模型X1.1在处理复杂写作任务时,既能运用模型内化的知识、调用联网搜索工具等准确查找用户需要的知识,又能深度思考用户希望创意写作的立意和要求,最后输出事实准确,结构化、逻辑性强,并且文辞优美的内容。例如在更复杂的长程任务场景,文心大模型 X1.1在面对共享单车平台不同等级用户,不同类型问题的处理流程,以及用户的不同情绪状态多元素叠加的问题时,能够严格遵循业务流程先后规划、再自主调用工具,并结合用户情绪,短时内解决了问题,服务过程完整主动。
作为国内最早投入大模型产研的企业,百度依托“芯片-框架-模型-应用”的全栈自研体系,持续推动文心大模型能力进化。得益于飞桨文心的联合优化,文心大模型的能力拓展和效率提升。据早前公开报道,相比文心大模型X1,文心X1.1的事实性提升34.8%,指令遵循提升12.5%,智能体提升9.6%。
相关文章
10月21日,中文精确指令遵循测评基准(SuperCLUE-CPIF)正式发布,文心X1.1以75.51分位居国产大模型第一,在任务类型、指令数量两类...
2025-10-22 0
记者从厦门市邮政管理局了解到,今年“双11”期间,厦门电商件量预计将保持平稳增长,邮政管理部门和快递企业已提前部署,全力保障寄递服务高效顺畅。据了解,...
2025-10-22 1
证券之星消息,根据天眼查APP数据显示金发科技(600143)新获得一项发明专利授权,专利名为“一种可生物降解脂肪族聚酯组合物及其制备方法和应用”,专...
2025-10-22 1
证券日报网讯 江波龙10月21日在互动平台回答投资者提问时表示,经原厂及第三方测试验证,搭载公司自研主控的UFS4.1产品在读写速度以及稳定性上优于市...
2025-10-22 1
全球机器人产业正处于加速爆发阶段。根据中国信通院测算,从2025年到2045年,中国人形机器人整机市场将从20-50亿元逐步跨越到10万亿元级别,并在...
2025-10-22 0
9月26日,在第十三届科博会“涪江科技汇——颠覆性技术与未来产业发展”活动上,发布人李惠安佩戴AI眼镜,他身后的屏幕中,动态展示《颠覆性技术产业化指数...
2025-10-22 1
财联社10月22日讯(编辑 夏军雄)当地时间周二(10月21日),人工智能(AI)研究公司OpenAI发布了一款由AI驱动的新型网页浏览器——Chat...
2025-10-22 0
#亚马逊选品时,如何有效预测销量?#在亚马逊选品时,有效预测销量需结合多种方法,以获取更准确的结果。以下是具体策略及分析:一、直接数据追踪法添加购物车...
2025-10-22 1
发表评论