首页 抖音热门文章正文

AI 不再是“烧钱游戏”:DeepSeek 给行业上了一课

抖音热门 2025年09月28日 18:45 1 admin

DeepSeek 又一次刷新了 AI 圈的认知,中国 AI 迎来了真正的 “Nature 时刻”。

最近,R1 模型的论文登上了全球顶刊《自然》,立刻引发了广泛关注。

AI 不再是“烧钱游戏”:DeepSeek 给行业上了一课

但更炸裂的是:训练成本竟然只有 29.4 万美元!

圈内同行听到这个数字,全都开始嘀咕:等等,我是不是算错了?我家的战略是不是得重做?

AI 不再是“烧钱游戏”:DeepSeek 给行业上了一课

事情要从今年年初说起,DeepSeek-R1 一亮相就靠高性价比、高性能和开源策略吸引了全球目光。

当时大家心里都明白,这种成绩成本肯定不低,但具体数字谁也没看到。

直到最近,DeepSeek 团队在《自然》杂志的论文里首次把训练细节和成本公开了:512 块 H800 芯片,仅用了 29.4 万美元训练 R1 推理能力,构建基础大模型也就 600 万美元。

这个透明操作直接让路透社、CNN、彭博社等美媒一片惊呼,这真的是让人惊掉下巴的数字。

AI 不再是“烧钱游戏”:DeepSeek 给行业上了一课

CNBC 甚至评论,DeepSeek用这笔钱就完成了原本只有超级大厂才敢碰的训练量,打破了“必须拥有最顶尖 GPU 才能玩 AI”的假设。

AI 不再是“烧钱游戏”:DeepSeek 给行业上了一课

讲真,这个 29.4 万美元的训练成本真的刷新认知,也让美国同行开始认真掂量自家账本。

想想 OpenAI CEO 奥尔特曼 2023 年透露的基础模型训练成本“远超 1 亿美元”,再看看 DeepSeek 用 H800 芯片跑出来的成绩,差距太扎眼了。

AI 不再是“烧钱游戏”:DeepSeek 给行业上了一课

DeepSeek 公开的论文不仅把成本摆出来,还顺带把模型训练细节、强化学习策略、数据来源全都透明化了。

此前,美国一些官员质疑 DeepSeek 仅靠“阉割版”的英伟达 H800 芯片不可能训练出高性能模型,甚至还污蔑其违规获取大量 H100 芯片进行训练。

对此,DeepSeek 在《自然》杂志的补充文件中首次明确回应:R1 的训练全程仅使用了合法采购的 H800,耗时共 80 小时。

而 R1 能有今天的推理能力,也离不开它的前身 R1-Zero 的打磨。R1-Zero 完全靠纯强化学习自我进化,训练里唯一的规则就是:答对加分,答错扣分,不教套路,也不规定思考步骤。

AI 不再是“烧钱游戏”:DeepSeek 给行业上了一课

在 AIME 2024 数学测试中,它的准确率从最初的 15.6% 飙升至 77.9%,在启用自洽解码后更是突破至 86.7%,超越了不少人类选手。

训练过程中,团队还发现它会主动延长思考链条,有时甚至输出上万个 token,并在推理中自发插入一句“等一下,我需要验证”,展现出完全自主的解题优化能力。

这一幕堪称 AI 的“顿悟时刻”,而令人震撼的是,这一切都发生在没有任何人工指导的情况下。

AI 不再是“烧钱游戏”:DeepSeek 给行业上了一课

当然,R1-Zero 本身不适合直接对外使用,语言混用、可读性差是硬伤。于是团队设计了多阶段精炼:先用高质量冷启动数据修复语言问题,再强化学习提升推理能力,然后大规模监督微调扩展知识面,最后一轮强化学习对齐人类偏好。

AI 不再是“烧钱游戏”:DeepSeek 给行业上了一课

经过多轮打磨,R1 不仅保留深度推理能力,还能用流畅自然的语言与用户互动。最终,R1 在数学、编程等高难度任务上保持顶尖水平,在指令遵循和用户偏好基准上提升 17%–25%。

从 R1-Zero 到 R1 的进化,也让整个 AI 社区看到了一种新的可能性:高效低成本训练、强化学习驱动自我探索、系统性策略涌现,让大模型在保持性能的同时,也能显著降低资源消耗和成本压力。

上线后,R1 开源到 Hugging Face,下载量破 1090 万次,成为全球首个经过同行评审的主流大语言模型。Nature 也给出肯定,强调同行评审的价值,让大模型从公司的黑箱变成可以被科学验证的系统。

AI 不再是“烧钱游戏”:DeepSeek 给行业上了一课

这意味着,AI 竞争不再只是比谁烧得起更多 GPU。DeepSeek 用极低成本证明,高效策略、聪明训练流程和数据最大化利用,也能实现顶尖性能。

AI 不再是“烧钱游戏”:DeepSeek 给行业上了一课

更重要的是,这种透明化做法给整个行业树立了示范:训练细节、强化学习算法和数据来源全都公开,任何人都能复现,或者在此基础上做二次研究。

从技术角度看,R1 的成功验证了“自我探索 + 强化学习 + 多轮精炼”的方法论。在完全没有人工指导的情况下,模型会自主选择更长的思考链、尝试多种解法并自我检验。

这种能力,就是涌现的高级策略:AI 不再只是按套路算题,而是真正学会了“怎么去思考”。

而且,这套方法不仅对数学有效。经过多轮微调,R1 的能力已经扩展到语言理解、常识推理、跨学科问题解决等多个领域。

AI 不再是“烧钱游戏”:DeepSeek 给行业上了一课

可以看到,DeepSeek 这次操作不仅刷新了成本认知,也向整个 AI 社区发出了信号:中国团队完全能在高性能与低成本之间找到平衡,用更智能的训练方法解决大模型长期的资源瓶颈。

DeepSeek 登上 Nature 封面只是开始,整个行业都在紧盯这波操作,很可能彻底改写 AI 研究、训练和应用的玩法。

参考资料:

新智元、科普中国

编辑:不吃麦芽糖

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap