随着AI技术的迅速发展新加坡的劳动市场正面临前所未有的挑战根据《CNA》的报道,随着人工智能(AI)的快速发展,新加坡劳动力市场正面临巨大的变革。尤其...
2025-09-18 0
模型越来越便宜,为什么公司却越来越亏?这篇文章用通俗语言讲清楚AI行业的“烧钱逻辑”,带你看懂那些看似免费、实则昂贵的技术背后,到底发生了什么。
这篇文章的作者Ethan Ding,系统性地阐明了如今正在AI行业发生的一个“诡异”现象:虽然Token的单位成本下降了,但是由于AI能做的事越来越多,越来越被更多的人自动化地执行更大的任务,Token的消耗爆炸了,大模型公司的亏损率都在不断提高。
不过,这对经历过多次互联网补贴大战的中国用户来说,却也远不算什么新鲜事了:业务发展越来越红火,亏损额度越来越大,公司估值节节走高,直到……
未来,大语言模型的单位成本,也许还会一次又一次地便宜10倍,但AI付费订阅服务依然会被榨干。
token可以理解为词元,在大模型里,token 是分词器把文本切分后的最小处理/计费单位,它可能是一个字、一个词或一个标点。模型的上下文长度、生成长度、速度与费用,都按token计量。
但是,要注意它不直接等同于“字”或“词”,拆分规则要由具体分词器决定。
如若要了解token和大语言模型的具体工作原理,可参考这篇:OpenAI的前世今生。
如下为《ai subscriptions get short squeezed》的正文,enjoy,欢迎点赞、转发和收藏。
想象一下:你创立了一家公司,但你心里清楚,消费者每月最多只愿意付20美金(如今大部分AI大模型服务的月费价格)。
没关系,你心想,典型的VC打法——按成本价收费,为增长牺牲利润率,CAC、LTV 之类的账,你也都算过了。
不过接下来就有意思了,你看过 a16z 的那张图,显示 LLM 的成本每年下降 10 倍。
于是你心里盘算,今天每月20美金,可以做到收支平衡,等模型明年成本降低10 倍:砰的一下,利润率就有 90% 了。
亏损只是暂时的,利润终将到来!
这个策略,简单到连 VC 公司新人都能懂:
第一年:每月20美金 实现收支平衡
第二年:算力成本降低 10 倍,利润率达到 90%
第三年:买个豪华大游艇!
这个策略,确实也说得通,因为大家都在念叨:“大模型推理的成本,每 6 个月就降至原来的三分之一,我们会没事的。”
但是,18个月后,你的利润率依然负得不能再负。
Windsurf 公司最终被拆解变卖,Claude Code 本周(25年8月初)也不得不下架了后来推出的每月200 美元但不限量的套餐。
公司们仍在持续流血。
模型确实更便宜了,GPT-3.5 的调用费用,已经只有原来的十分之一。但不知为何,利润率反而更糟了。
这是不是有哪里不对?
GPT-3.5 现在虽然便宜了 10 倍,但它的吸引力也和在 iPhone 发布会上亮相的翻盖手机一样低。
当一款新模型作为 SOTA 问世时,99% 的用户需求会立刻转向它,消费者对所有产品都是这么做的。
现在来看看那些前沿模型的实际定价历史,也就是任何时候都占据 99%用户需求的那些模型:
看看上图,发现什么了吗?
当 GPT-4 以 $60 的价格推出时,尽管 GPT-3.5(之前的SOTA)便宜 26 倍,所有人还是一窝蜂地改用 GPT-4。
当 Claude 3 Opus 以 $60 推出时,哪怕 GPT-4 已经降价,人们还是转向了 Claude 3 Opus。
10 倍降成本确实存在,但只体现在上一代的模型上。
所以,这就是“成本会下降”战略站不住脚的第一个原因:市场只对“最好的语言模型”有需求,就是这么简单。
然而,最好的模型价格始终都差不多贵,因为那代表了当下推理所需的最大成本。
当你和 AI 相处时——无论是在编程、写作还是思考——你总是追求最高的质量。
没有人会打开 Claude 想:“嗯,要不我用那个老版本帮老板省点钱。”
我们在认知上都是贪婪的生物,想要能获得的最强大脑,特别是当我们拿自己的宝贵时间去换取它的时候。
“好吧,但这仍然可控,对吧?我们就一直保持收支平衡不就行了?”
哎,天真的孩子。
的确,每一代前沿模型的单个Token 成本,确实也没有变贵。
然而,出现更糟糕的情况:模型消耗的 Token 数量,呈现了爆炸式增长。
以前,ChatGPT 对一句话的问题,只回复一句话。
现在,Deep Research模式要花 3 分钟来规划,20 分钟来阅读,再用 5 分钟为你重写一份报告。
推理阶段计算量的激增,导致了一个谁也没预料到的结果:AI 能够完成的单次任务长度,每六个月翻一番。
过去返回1000 个 Token 的任务,现在返回10万个。
当你把趋势往后推算,数字疯狂得离谱。
目前,一次 20分钟的“深度研究”运行成本大约是1美金。
到了 2027 年,我们将有 Agent 可以连续运行 24 小时,而不丢失上下文,再考虑前沿模型的单价并未下降,那就是一次运行要烧掉72美金。
也就是每位用户每天72美金,而且用户还可以同时并行运行多个这样的任务。
一旦我们能部署 Agent 异步执行连续 24 小时的任务,我们就不会再一次只给它一条指令然后等反馈了。
我们会批量调度它们,整个 AI 舰队们并行地攻克问题,烧起Token来就跟不要钱似的。
显然,这一点怎么强调都不为过:每月20美金的付费订阅,连支撑一个用户每天跑一次成本1美金的深度研究模式都做不到。
但,这恰恰是我们正在面对的局面。
模型能力每提高一次,都意味着它们一次能够有效利用的算力上限又升高了。
这就像造出了一台更省油的发动机,然后用省下的油去造了一辆巨型卡车。
没错,你每加仑油是能跑得更远了,但你也会一次烧掉 50 倍的油。
这种局面,逼得Windsurf 不得不卖身,任何采用“固定费用套餐 + 高强度 Token 消耗”模式的创业公司,如今都正处于枪口之下。
Claude Code 推出的 Max-Unlimited 套餐,可以说是我们见过的、为抵御这场风暴所做的最精密尝试。然而,他们用尽了一切招数,但最后仍然被击溃了。
他们的策略确实很巧妙:
1、价格定高 10 倍:当 Cursor 收 $20/月 时,它定 $200/月。先留出更大的缓冲区,好让出血开始前能多撑一阵子;
2、按负载自动切换模型:负载高时就从 Opus 模型($75/百万 Token)切换到 Sonnet 模型($15/百万),阅读时用 Haiku 模型优化。
就像 AWS 的弹性扩容,只不过更加用在“刀刃”上。
他们肯定把这种行为,直接写进了模型权重里。这是一种范式转变,后面我们大概率会更常见到。
3、把计算量转给用户的机器:如果用户的 CPU 都闲着,为什么还要自己开沙箱sandboxes呢?
尽管用了这些高明的工程手段,Token的消耗仍然像超新星一样爆炸了。
排名第一的用户,消耗了100亿个 Token,相当于在一个月里输出了1.25万本《战争与和平》 的内容。
怎么做到的?就算每次连续运行 10 分钟,一个用户又怎么能烧掉 100 亿个Token呢?
结果发现,连续运行 10~20 分钟,刚好足够卡诗“for loop”的妙用。
一旦将 Token 消耗与用户在应用中的时间解耦decouple,物理规律就接管了一切:把 Claude 丢去执行一个任务,让它自己检查结果、重构、优化,如此循环,直到破产为止。
用户变成了 API 编排者,在 Anthropic 买单的情况下,7×24 小时地运行代码转换引擎。
从聊天到 Agent 的演化,一夜之间就发生了,消耗量暴增了 1000 倍。
这是一次相变,而不是渐变。
于是, Anthropic 下架了无限量套餐。
他们本可以尝试每月2000美金的订价,但教训不在于价格够不够高,而在于在这个新世界中,无论哪种订阅模式,都不可能撑得起无限使用。
换言之,在这个新环境下,不存在行得通的固定订阅价。
这笔账已经从根本上算不平了。
这让其他所有公司都陷入了一个进退两难的处境。
每家AI公司都知道按用量计费(而不是固定价格),就能救自己,但他们也知道那么做会要了自己的命。
你在老老实实按 $0.01/1000Token收费,你那靠风投资金支持的竞争对手却提供每月只需$20的无限量套餐。
用户会选谁,还用猜吗?
典型的囚徒困境:
结果就是,人人都选择了背叛。
大家都去补贴重度用户,所有人都在晒高斜率的增长曲线,但最终大家都不得不发布“重要定价更新”的公告。
Cursor、Lovable、Replit,他们心里都清楚账怎么回事。他们选择了今天先拼增长、明天再谈盈利,最终难免破产,但那是下任 CEO 才要操心的问题。
老实说,也许他们最终是对的。
在跑马圈地阶段,市场份额确实比利润率更重要。只要 VC 们还在不断掏钱,填补单位经济的亏空。
但去问问 Jasper,当音乐停止时会发生什么吧。
难道真的有办法,避免这场“死局”吗?
据传,Cognition 最近正以 150 亿美元估值融资,而它对外公布的 ARR ,还不到 1 亿美元(我猜也就 5000 万左右)。
对比之下,Cursor 在 ARR 5 亿美元时,融到了 100 亿美元的估值,增长曲线要陡峭得多。
前者收入不到后者的八分之一,估值却达到了后者的三分之二。风投们知道关于 Cognition 的什么秘密,是我们所不知道的吗?
两家公司做的都是写代码的 AI Agent。难道 Cognition 找到了摆脱死亡螺旋的办法?
从逻辑上看,避开死局有三条出路:
不补贴用户,不搞「先拉用户、以后再变现」,而是老老实实按经济账来,理论上这听上去很不错。
可是,有按量计费且大获成功的面向消费者的 AI 公司吗?
消费者讨厌分段计费!
他们宁愿多花钱买不限量,也不想事后收到账单时被吓一跳。
每一家成功的 to C 订阅服务——Netflix、Spotify、ChatGPT——用的都是统一套餐。
你只要一加上计量表,增长立马死掉。
Devin 正是all in在这条路上。
他们最近宣布了和花旗银行及高盛的合作:在每家让 4 万名软件工程师上手 Devin。按每人每月20美金算,这是个年收入近1000万美金的项目。
但问题来了:你是愿意有来自高盛的1000万美金的ARR,还是愿意有来自发烧级开发者们的5亿美金ARR?
答案显而易见:6 个月的部署实施、合规审核、安全审计、采购地狱……这意味着拿下高盛的单子非常困难,虽然一旦拿下,就几乎不可能被撼动。只有当银行里那个拍板的人,把自己的声誉都押在你身上时,你才能签下这些合同。而签了约后,每个人都会想方设法把项目做成。
这也是为什么在超大规模云厂商之外,最大的那些软件公司全都是卖比如 CRM/ERP/EHR等系统的,它们面向的正是这些客户。这类公司通常能做到 80-90% 的利润率,因为客户越是不容易走,你的买家对价格就越不敏感。
当竞争对手赶到时,你已经在客户的体系中扎根很深,想切换得再耗一个 6 个月的销售周期。他们并非走不了,而是你客户的 CFO 宁死也不想再经历一次选择过程了。
这是 Replit 的游戏:把编码 Agent 和应用托管、数据库管理、部署监控、日志等打包提供。
每个 Token 都在亏钱,但你在这代新开发者的技术栈中每一层其他地方都攫取了价值,以下是 Replit 是如何做到高度垂直整合的。
把 AI 亏本卖,然后引流,来带动那些与 AWS 竞争的服务消费。你卖的不是推理本身,你卖的是其余的一切,而推理部分只是营销开支。
绝妙之处在于,代码生成,自然而然会催生托管的需求。
每个应用都需要运行的地方,每个数据库都需要维护,每次部署都需要监控。
就让 OpenAI 和 Anthropic 去把推理价格卷到归零吧,而你拥有其余所有部分。
那些还在玩“固定套餐、不计成本增长”的公司,都是行尸走肉,它们不过是把昂贵的葬礼安排在了第四季度而已。
我总是看到一些创始人,指望着“模型明年会便宜 10 倍”,把它当成救命稻草。
没错,模型会更便宜,但你的用户会期待它们多干出 20 倍的活。
Cursor 对Windsurf 损益的压力,让他们找不到脱身之策。
就连拥有地球上最垂直整合应用层的 Anthropic ,也无法让无限量的固定订阅模式跑通。
虽然我常说,先发制人胜过策略聪明being early beats being smart,但是,如果只是抢先,却没有计划,也意味着你只是第一个进墓地的人。
如今,不会有 Google 给负利润业务开出 24 亿美元的支票。
当“以后再说”意味着你的AWS 账单已经比营收还高时,也就没什么“以后再说”的余地了。
本文由人人都是产品经理作者【柳胖胖】,微信公众号:【一个胖子的世界】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
相关文章
随着AI技术的迅速发展新加坡的劳动市场正面临前所未有的挑战根据《CNA》的报道,随着人工智能(AI)的快速发展,新加坡劳动力市场正面临巨大的变革。尤其...
2025-09-18 0
模型越来越便宜,为什么公司却越来越亏?这篇文章用通俗语言讲清楚AI行业的“烧钱逻辑”,带你看懂那些看似免费、实则昂贵的技术背后,到底发生了什么。这篇文...
2025-09-18 0
本报记者 陈子帅近日,中国科学院自动化研究所科研团队与相关单位合作,成功研发出首款类脑脉冲大模型“瞬悉1.0”(SpikingBrain-1.0)。该...
2025-09-18 0
9月15日,伴随着巨大的轰鸣声和炽热的白色蒸汽,由北京天兵科技有限公司(下称“天兵科技” 自主研制的天龙三号大型液体运载火箭在山东海阳东方航天港海上平...
2025-09-18 0
文|壹娱观察 太史詹姆斯美国当地时间9月9日晚,苹果在秋季发布会上带来今年的重磅新品。当天苹果美股收跌1.48%。表明着市场对iPhone 17的悲观...
2025-09-18 0
来源:中国新闻网 从“地震废墟中被埋小男孩”的虚假图片,再到“7月起老人坐火车打折”的假消息……AI生成的不实信息,已成当前网络信息生态中的重要污染...
2025-09-18 0
前言沃尔玛旗下onn.品牌推出过两款氮化镓充电器,onn 先后推出的 72W 和 30W 两款氮化镓充电器,充电头网均通过拆解确认其内部电源方案由智融...
2025-09-18 0
证券之星消息,根据天眼查APP数据显示烽火通信(600498)新获得一项发明专利授权,专利名为“一种以太网OAM报文识别方法及系统”,专利申请号为CN...
2025-09-18 0
发表评论