想象一下,站在200层楼高的悬崖边俯瞰深渊,脚下是被称为“地球裂缝”的花江大峡谷。如今,一座钢铁巨龙横跨这道天堑——2024年9月28日通车的贵州花江...
2025-09-28 0
DeepSeek 又一次刷新了 AI 圈的认知,中国 AI 迎来了真正的 “Nature 时刻”。
最近,R1 模型的论文登上了全球顶刊《自然》,立刻引发了广泛关注。
但更炸裂的是:训练成本竟然只有 29.4 万美元!
圈内同行听到这个数字,全都开始嘀咕:等等,我是不是算错了?我家的战略是不是得重做?
事情要从今年年初说起,DeepSeek-R1 一亮相就靠高性价比、高性能和开源策略吸引了全球目光。
当时大家心里都明白,这种成绩成本肯定不低,但具体数字谁也没看到。
直到最近,DeepSeek 团队在《自然》杂志的论文里首次把训练细节和成本公开了:512 块 H800 芯片,仅用了 29.4 万美元训练 R1 推理能力,构建基础大模型也就 600 万美元。
这个透明操作直接让路透社、CNN、彭博社等美媒一片惊呼,这真的是让人惊掉下巴的数字。
CNBC 甚至评论,DeepSeek用这笔钱就完成了原本只有超级大厂才敢碰的训练量,打破了“必须拥有最顶尖 GPU 才能玩 AI”的假设。
讲真,这个 29.4 万美元的训练成本真的刷新认知,也让美国同行开始认真掂量自家账本。
想想 OpenAI CEO 奥尔特曼 2023 年透露的基础模型训练成本“远超 1 亿美元”,再看看 DeepSeek 用 H800 芯片跑出来的成绩,差距太扎眼了。
DeepSeek 公开的论文不仅把成本摆出来,还顺带把模型训练细节、强化学习策略、数据来源全都透明化了。
此前,美国一些官员质疑 DeepSeek 仅靠“阉割版”的英伟达 H800 芯片不可能训练出高性能模型,甚至还污蔑其违规获取大量 H100 芯片进行训练。
对此,DeepSeek 在《自然》杂志的补充文件中首次明确回应:R1 的训练全程仅使用了合法采购的 H800,耗时共 80 小时。
而 R1 能有今天的推理能力,也离不开它的前身 R1-Zero 的打磨。R1-Zero 完全靠纯强化学习自我进化,训练里唯一的规则就是:答对加分,答错扣分,不教套路,也不规定思考步骤。
在 AIME 2024 数学测试中,它的准确率从最初的 15.6% 飙升至 77.9%,在启用自洽解码后更是突破至 86.7%,超越了不少人类选手。
训练过程中,团队还发现它会主动延长思考链条,有时甚至输出上万个 token,并在推理中自发插入一句“等一下,我需要验证”,展现出完全自主的解题优化能力。
这一幕堪称 AI 的“顿悟时刻”,而令人震撼的是,这一切都发生在没有任何人工指导的情况下。
当然,R1-Zero 本身不适合直接对外使用,语言混用、可读性差是硬伤。于是团队设计了多阶段精炼:先用高质量冷启动数据修复语言问题,再强化学习提升推理能力,然后大规模监督微调扩展知识面,最后一轮强化学习对齐人类偏好。
经过多轮打磨,R1 不仅保留深度推理能力,还能用流畅自然的语言与用户互动。最终,R1 在数学、编程等高难度任务上保持顶尖水平,在指令遵循和用户偏好基准上提升 17%–25%。
从 R1-Zero 到 R1 的进化,也让整个 AI 社区看到了一种新的可能性:高效低成本训练、强化学习驱动自我探索、系统性策略涌现,让大模型在保持性能的同时,也能显著降低资源消耗和成本压力。
上线后,R1 开源到 Hugging Face,下载量破 1090 万次,成为全球首个经过同行评审的主流大语言模型。Nature 也给出肯定,强调同行评审的价值,让大模型从公司的黑箱变成可以被科学验证的系统。
这意味着,AI 竞争不再只是比谁烧得起更多 GPU。DeepSeek 用极低成本证明,高效策略、聪明训练流程和数据最大化利用,也能实现顶尖性能。
更重要的是,这种透明化做法给整个行业树立了示范:训练细节、强化学习算法和数据来源全都公开,任何人都能复现,或者在此基础上做二次研究。
从技术角度看,R1 的成功验证了“自我探索 + 强化学习 + 多轮精炼”的方法论。在完全没有人工指导的情况下,模型会自主选择更长的思考链、尝试多种解法并自我检验。
这种能力,就是涌现的高级策略:AI 不再只是按套路算题,而是真正学会了“怎么去思考”。
而且,这套方法不仅对数学有效。经过多轮微调,R1 的能力已经扩展到语言理解、常识推理、跨学科问题解决等多个领域。
可以看到,DeepSeek 这次操作不仅刷新了成本认知,也向整个 AI 社区发出了信号:中国团队完全能在高性能与低成本之间找到平衡,用更智能的训练方法解决大模型长期的资源瓶颈。
DeepSeek 登上 Nature 封面只是开始,整个行业都在紧盯这波操作,很可能彻底改写 AI 研究、训练和应用的玩法。
参考资料:
新智元、科普中国
编辑:不吃麦芽糖
相关文章
想象一下,站在200层楼高的悬崖边俯瞰深渊,脚下是被称为“地球裂缝”的花江大峡谷。如今,一座钢铁巨龙横跨这道天堑——2024年9月28日通车的贵州花江...
2025-09-28 0
【来源:厦门晚报】9月25日晚,浙江品控科技管理有限公司发布讣告,宣告该公司及浙江电商检测有限公司董事长张飞南于2025年9月21日因意外离世,年仅4...
2025-09-28 1
DeepSeek 又一次刷新了 AI 圈的认知,中国 AI 迎来了真正的 “Nature 时刻”。最近,R1 模型的论文登上了全球顶刊《自然》,立刻引...
2025-09-28 1
信息来源:https://neurosciencenews.com/social-bonds-genetic-aging-29740/康奈尔大学一项突...
2025-09-28 2
IT之家 9 月 28 日消息,小米员工本周在小米社区更新澎湃 HyperOS 的优化进展,其中提到用户所反馈的 Beta 版本部分场景桌面壁纸黑屏、...
2025-09-28 2
前言人工智能在美国工作场所的普及速度惊人,两年内员工使用率从21%跃升至40%,这意味着近半数美国员工已在工作中接触AI。然而,这种普及并不均衡,新加...
2025-09-28 2
最近,iOS 26.1 的首个测试版在网络上引起不小关注。虽说它不是一次彻底的大版本升级,但在多语言支持、界面优化与跨生态互通方面,都释放出不少颇具前...
2025-09-28 2
夜深了,蔡磊的动态又更新了,屏幕前光线挺暗的。他讲不了话,也起不来身,吃饭都得人喂,连嘴里嚼东西都换成了“机器”。可他还是用眼睛一个字一个字地敲,用耳...
2025-09-28 2
发表评论