观点网讯:9月28日,美国芯片巨头英伟达NVIDIA被曝将在2025年国际消费电子展CES上发布新一代RTX50Super系列显卡,电源厂商海韵电子的...
2025-09-28 1
编辑:好困
【新智元导读】打破思维惯性,「小模型」也能安全又强大!北大-360联合实验室发布TinyR1-32B模型,以仅20k数据的微调,实现了安全性能的里程碑式突破,并兼顾出色的推理与通用能力。
2025年9月23日,由「北大-360大模型联合实验室」研发的TinyR1-32B模型正式发布。
近年来开源大模型层出不穷,但对「安全性」的关注却严重不足。
北大-360联合实验室聚焦于大模型安全方向,以极高的安全性能和轻量化的创新设计,推出更安全的模型TinyR1-32B。
在安全能力上,TinyR1-32B超同等尺寸Qwen3-32B模型25分,以及最新版DeepSeek-R1-0528 17分,在开源大模型赛道上实现了里程碑式突破。
小模型的大突破
尽管该模型仅有DeepSeek R1-0528的5%参数量,却在多个核心任务上展现出「以小博大」的实力。
其不仅在推理能力、通用指令对齐方面均取得令人意想不到的成果,部分能力已超越DeepSeek R1-0528等超大模型,并在同参数量级的 32B 开源模型中表现突出,更在安全对齐方面取得了突破性进展,以碾压性优势力拔头筹:
更令人惊讶的是,在训练过程中,TinyR1-32B仅使用20k条数据进行SFT微调,便完成了这一系列的突破。
不同模型各项能力指标
不同模型各项能力指标(注:黑体为32B模型下的最好结果,红体为所有模型下的最好结果)
既安全又有用
三层次安全评测
为了衡量不同模型的安全表现,研究团队设计了一个三层次的安全评分体系:
测试中,研究团队利用大量诱导性、攻击性Prompt对模型进行「红队化」评估。
结果显示,TinyR1-32B不再止步于「拒答」,而是能建设性、正向地安全引导——实现真正的「既安全,又有用」。
破解「跷跷板效应」
ControlToken技术
长期以来,大模型陷入在helpful(有用性)与harmless(安全性)的「跷跷板效应」困境:提升安全性能力的同时往往会牺牲其他部分能力,反之亦然。
为破解这一难题,研究团队提出了突破性方案——Control Token技术。
Control Token技术支持应用侧根据内容安全检测信号(Content Moderation)动态选择不同的Control Token:
这样,TinyR1摆脱了传统的「单档位」,成为可以在安全与有用之间自由切换的自动挡。
更进一步,在安全模式下,根据不同的风险等级策略配置,TinyR1还能通过Control Token进一步实现更精细化的响应:
这种分层安全设计,让模型不再局限于「一刀切」的简单拒答,而是能够根据不同风险等级灵活应对。
下图展示了我们基于Postive/Rejective/Negative三种响应模式的系统流程设计,包括数据蒸馏,联合训练,推理应用三个基本过程。
TinyR1-Safety-8B
轻量化安全专项模型
基于Control Token技术,实验室还同步推出了TinyR1-Safety-8B,一款通用轻量级安全对齐模型。
该模型仅通过SFT微调技术整合多类安全行为进行训练,并在推理阶段通过特定Control Token指令动态激活,实现了多场景下的灵活安全部署。
在各类安全评测中,TinyR1-Safety-8B均达到最佳水平。
更具前瞻性的是,团队通过将Control Token扩展至区域化安全策略(如policy:en-US、policy:zh-CN),初步验证了文化感知安全控制的可行性。
这意味着,未来大模型能够真正做到因地制宜、文化自适应。
不同模型在安全测评集上的平均分
安全测评集leaderboard
全面开源,普惠生态
目前,TinyR1系列模型已全面开源,开发者可一键调用,在数学推理、科学问答、内容安全等多类场景中快速部署。
「北大-360大模型联合实验室」表示,未来将持续迭代TinyR1系列,推动形成安全、可信、普惠的大模型生态,打破「大即是强」的固有思维,开创「小而强大」的新时代。
模型仓库:
https://huggingface.co/qihoo360/TinyR1-32B
https://huggingface.co/qihoo360/TinyR1-Safety-8B
相关文章
观点网讯:9月28日,美国芯片巨头英伟达NVIDIA被曝将在2025年国际消费电子展CES上发布新一代RTX50Super系列显卡,电源厂商海韵电子的...
2025-09-28 1
编辑:好困【新智元导读】打破思维惯性,「小模型」也能安全又强大!北大-360联合实验室发布TinyR1-32B模型,以仅20k数据的微调,实现了安全性...
2025-09-28 1
作为全球工业发展的“风向标”,第二十五届中国国际工业博览会(下称“工博会”)9月23日至27日在上海举行。在30万平方米的展区里,来自全球28个国家和...
2025-09-28 2
“利用合成生物学的途径,用1立方米大小的生物反应器生产的淀粉量,就能与5亩土地种植出来的玉米相当。”日前在上海举行的“好望角科学沙龙”合成生物学专场活...
2025-09-28 2
9月27日,2025三星堆论坛主论坛活动举行。5位在国际上享有盛誉的重量级专家分别从考古研究、文化遗产等不同角度进行主旨发言,同时发布三星堆最新研究成...
2025-09-28 2
【CNMO科技消息】9月28日,CNMO注意到,有数码博主曝光了华为手机未来的迭代规律。据他透露,华为手机的大迭代,以“数字”结尾递增;小迭代则加后缀...
2025-09-28 2
【CNMO科技消息】9月28日,有数码博主爆料称,疑似华为下一代阔比例大折叠屏手机Mate X7正在测试中。该机采用展开后尺寸为7.6-7.7英寸,并...
2025-09-28 3
本篇文章给大家谈谈手机斗地主赢钱的软件有哪些,以及斗地主赢手机的游戏对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 玩斗地主那个软件好 1、偏...
2025-09-28 3
发表评论