从“技术对决”到“性价比战争”|图源:AIGC
作者/ IT时报 贾天荣
编辑/ 王昕 孙妍
4月24日,DeepSeek正式发布并开源DeepSeek V4系列预览版本。距离V3炸开行业水面的一年多后,这条“鲇鱼”再次入局。
彼时,DeepSeek把AI大模型的价格从“高高在上”拉到了“人人可用”——API调用成本仅为GPT-4的百分之一,性能却正面硬刚。这一印象至今仍是它最鲜明的标签。
但过去一年,牌桌变了。从AI Agent的爆发到百万级长文本的普及,Token的消耗量正呈指数级激增。当下的行业陷入了一个悖论:AI越来越好用,但也越来越贵。
在这个时间点,DeepSeek V4试图回答的已经不只是“更强”,而是如何让AI继续用得起。
模型越来越像
性价比才是唯一变量
当前大模型市场正进入转折期——模型能力差距快速收敛。
“不管是开源模型还是闭源模型,都在相互蒸馏、相互对齐,结果就是能力越来越接近。”山海引擎COO彭璐告诉《IT时报》记者,如今模型之间的差异,更多已经从过去的“60分和90分”,缩小到“98分和99分”的细微差别。
能力差距的收敛,直接改变了市场的选择逻辑。“为什么像MiniMax这类模型最近卖得很火?本质原因是它已经达到主流模型80%以上的能力,但成本可能连一半都不到。”在能力趋同的背景下,性价比成为企业决策的关键因素。
基于这一判断,彭璐认为,大模型未来将逐渐从“技术产品”转变为“基础生产工具”,“就像发电机一样,不同技术路线(火电、核电)可能存在差异,但在一定效率区间内是可以接近的。”
因此,在不少业内人士看来,当前国产大模型的竞争重点,不应局限于模型能力本身的“对标与PK”,而是应尽快进入产业层面的布局。未来的关键在于算力和数据中心。相比私有化部署项目,面向全市场提供Token服务的模式空间更大,而前者往往定制化程度高、节奏较慢。
“如果把未来的数据中心看作‘电厂’,那么Token就是电力。”彭璐用类比解释称,未来企业购买的将不再是具体模型,而是按类型计价的Token能力,例如文本、图像、语音等,不同模型之间的差异会被弱化,最终形成类似电力市场的统一定价体系。
“模型会逐渐变成一种生产工具。”他表示,模型厂商之间的竞争,也将从“谁更先进”转向“谁的工具被更多场景采用”。
AI变贵的真相
实际是AI用得多了
回到现实,一个悖论仍然横亘在行业面前:AI明显越来越好用了,行业却在喊贵。问题不在“单价”,而在“用量”。
如果说V3的意义是“把价格打下来”,那么V4所处的阶段,是价格战进入深水区——随着“小龙虾”在内的Agent大火,长上下文的普及,AI应用爆发带来的Token消耗指数级激增。
“今年以来Token需求至少呈10倍增长。”彭璐分析,目前部分客户的算力需求已出现明显紧张,GPU租赁市场价格也随之上涨,H100、H200租赁价格上涨20%~30%,整机价格涨幅甚至达到50%,二手设备价格比以前的新设备都要贵。
DeepSeek给出的解法,不是简单降价,而是重构成本结构。
V4发布第二天,DeepSeek官网更新API文档,宣布DeepSeek V4 Pro降价,开启2.5折限时优惠。调价后,DeepSeek V4 Pro每百万Tokens输入价格(缓存命中)为0.25元,输入价格(缓存未命中)为3元,输出价格为6元。此次优惠活动将持续至5月5日23点59分。
紧接着第二天(4月26日晚),DeepSeek宣布,全系API的输入缓存命中价,永久降至原有价格的1/10。最新调价后,DeepSeek V4 Flash每百万Tokens输入缓存命中价格为0.02元,DeepSeek V4 Pro为0.025元(已调价基础上的十分之一)。
V4降价的底气,根源在于V4本身的架构设计。
V4引入了混合稀疏注意力机制,包含两种注意力模式:CSA(压缩稀疏注意力)对强关联的Token精读,HCA(重度压缩注意力)对弱关联的内容快速略过,不做全量计算,这样让长上下文的边际成本大幅下降。
V4的另一项关键设计,是FP4(4位浮点数)+FP8(8位浮点数)的混合精度。精度可以理解为芯片存储数字时用多少位来表示一个小数,位数越少,占用的显存越小,计算速度越快。FP4是目前最低的商用精度,每个参数只用4位表示,内存占用比FP8再减半。
DeepSeek-V4 和 DeepSeek-V3.2 的计算量和显存容量随上下文长度的变化
基于这样的创新架构,V4做到了100万Token的长上下文场景下,V4 Pro单Token推理的计算量只有上一代V3.2的27%,KV Cache占用降至10%。也就是说,同样的硬件资源,V4能处理的并发用户数量,理论上是上一代的数倍,而同样显存能同时维持的缓存条目多了十倍,计算成本的压缩,为定价空间的释放奠定了基础。
由此便可理解,为什么这次降价幅度最狠的是“缓存命中价”。所谓“缓存命中”,是指大模型在处理请求时,如果上一次请求已经处理过,模型可以把这部分的中间计算结果缓存下来,下次请求时直接复用,不用重新计算,自然也不用重新计费。
这个便是V4 KV Cache压缩技术的直接变现。这项技术和定价,恰恰也正击中Agent类应用的痛点。
Agent典型的调用模式是:系统提示词很长(定义Agent的角色、能力边界、工具列表),这部分在每次请求里完全不变;用户输入和工具返回结果每次不同,但相对短。
V4用价格杠杆鼓励开发者把固定内容(系统提示词、工具定义、文档模板)放在请求头部,让缓存机制自动生效,缓存越稳定,命中率越高,开发者付的钱越少,部署Agent的边际成本也就越低。
如果这套机制真的生效,意味着一个被高频调用的Agent产品,其调用成本只是每次真正变化的用户输入和模型输出,而这样的成本已经接近普通对话。
那么,此前困扰产业的“昂贵的Token”可以重新找到解题方式。
未掀起大规模切换潮
落地仍在“观望期”
尽管发布即热度拉满,但在产业侧,V4并未立即掀起大规模切换潮。
彭璐告诉记者,目前企业客户在模型选择上整体仍处于观望阶段,对成熟客户来说,一旦已有稳定模型在运行,不会轻易切换。企业通常需要完成适配、测试和成本验证,确认确实能够降本增效后,才会进入生产环境。
因此,无论是客户侧还是服务商侧,都需要经历压力测试、生产验证以及基于客户语料的持续调优过程。
“至少在我们这边,V4这样的新模型要大规模在客户端落地,可能还需要1至2个月时间。”他说,目前客户尚未出现大面积“必须切换到新一代模型”的趋势,“一些友商之间也有交流,至少从我们这里来看,还没有明显的爆发。”
在技术层面,彭璐认为,DeepSeek V4的出现对行业仍具有重要推动意义,“它在算法和专利上的一些创新已经通过论文形式公开,这些成果对整个行业,包括多模态模型的发展,都会产生正向影响。”
当Token革命撞上算力的墙
另一个更现实的问题是算力供给。
V4的另一重意义,在于其释放的“全栈国产落地”信号。过去算法公司与国产芯片厂商之间长期存在错位:模型厂商担心硬件生态拖累研发,芯片厂商则缺少对最前沿的大模型进行深度调优。
随着V4的发布,国产算力厂商迅速跟进:华为、寒武纪、海光等相继宣布完成适配或支持。
不过,适配争议仍然存在。
彭璐表示,公司内部已经在推进相关部署,尽管目前仍处于业务起步阶段,但开发团队在实际落地过程中,并未反馈明显的技术障碍,“至少在现阶段,没有听到什么问题。”
对于外界关注的长上下文能力是否增加适配难度,彭璐认为整体可控,并未成为决定性门槛。在算力配置方面,当前行业确实存在对高端GPU配置的讨论,例如需要多台高性能卡进行支撑。“像B200、B300这类芯片,本身在设计时就对FP8+FP4做了支持,因此在适配上会更具优势。包括部分国产芯片在内,也在逐步支持类似能力,整体生态正在完善中。”
不同硬件架构之间的适配体验仍可能存在差异。对于网络上关于适配难度的争议,彭璐认为,部分声音可能受到市场利益驱动,“不同厂商、不同角色的立场不一样,对同一技术的解读也会有差异。”
归根结底,问题仍指向上游制造能力。DeepSeek也在其发布通稿中坦言,受限于高端算力,Pro服务吞吐有限,预计下半年昇腾950超节点批量上市后,Pro价格会大幅下调。
对于国产算力的未来,彭璐表示看好,但短期仍受制于产能,“关键还是在上游制造能力,如果这些瓶颈不能解决,芯片供应仍然会受限。”
排版/ 季嘉颖
图片/ MiniMax DeepSeek AIGC
来源/《IT时报》公众号vittimes
E N D