DeepSeek用算法红利重塑AI定价权

从“技术对决”到“性价比战争”｜图源：AIGC

作者／ IT时报 贾天荣

编辑／王昕孙妍

4月24日，DeepSeek正式发布并开源DeepSeek V4系列预览版本。距离V3炸开行业水面的一年多后，这条“鲇鱼”再次入局。

彼时，DeepSeek把AI大模型的价格从“高高在上”拉到了“人人可用”——API调用成本仅为GPT-4的百分之一，性能却正面硬刚。这一印象至今仍是它最鲜明的标签。

但过去一年，牌桌变了。从AI Agent的爆发到百万级长文本的普及，Token的消耗量正呈指数级激增。当下的行业陷入了一个悖论：AI越来越好用，但也越来越贵。

在这个时间点，DeepSeek V4试图回答的已经不只是“更强”，而是如何让AI继续用得起。

模型越来越像

性价比才是唯一变量

当前大模型市场正进入转折期——模型能力差距快速收敛。

“不管是开源模型还是闭源模型，都在相互蒸馏、相互对齐，结果就是能力越来越接近。”山海引擎COO彭璐告诉《IT时报》记者，如今模型之间的差异，更多已经从过去的“60分和90分”，缩小到“98分和99分”的细微差别。

能力差距的收敛，直接改变了市场的选择逻辑。“为什么像MiniMax这类模型最近卖得很火？本质原因是它已经达到主流模型80%以上的能力，但成本可能连一半都不到。”在能力趋同的背景下，性价比成为企业决策的关键因素。

基于这一判断，彭璐认为，大模型未来将逐渐从“技术产品”转变为“基础生产工具”，“就像发电机一样，不同技术路线（火电、核电）可能存在差异，但在一定效率区间内是可以接近的。”

因此，在不少业内人士看来，当前国产大模型的竞争重点，不应局限于模型能力本身的“对标与PK”，而是应尽快进入产业层面的布局。未来的关键在于算力和数据中心。相比私有化部署项目，面向全市场提供Token服务的模式空间更大，而前者往往定制化程度高、节奏较慢。

“如果把未来的数据中心看作‘电厂’，那么Token就是电力。”彭璐用类比解释称，未来企业购买的将不再是具体模型，而是按类型计价的Token能力，例如文本、图像、语音等，不同模型之间的差异会被弱化，最终形成类似电力市场的统一定价体系。

“模型会逐渐变成一种生产工具。”他表示，模型厂商之间的竞争，也将从“谁更先进”转向“谁的工具被更多场景采用”。

AI变贵的真相

实际是AI用得多了

回到现实，一个悖论仍然横亘在行业面前：AI明显越来越好用了，行业却在喊贵。问题不在“单价”，而在“用量”。

如果说V3的意义是“把价格打下来”，那么V4所处的阶段，是价格战进入深水区——随着“小龙虾”在内的Agent大火，长上下文的普及，AI应用爆发带来的Token消耗指数级激增。

“今年以来Token需求至少呈10倍增长。”彭璐分析，目前部分客户的算力需求已出现明显紧张，GPU租赁市场价格也随之上涨，H100、H200租赁价格上涨20%～30%，整机价格涨幅甚至达到50%，二手设备价格比以前的新设备都要贵。

DeepSeek给出的解法，不是简单降价，而是重构成本结构。

V4发布第二天，DeepSeek官网更新API文档，宣布DeepSeek V4 Pro降价，开启2.5折限时优惠。调价后，DeepSeek V4 Pro每百万Tokens输入价格（缓存命中）为0.25元，输入价格（缓存未命中）为3元，输出价格为6元。此次优惠活动将持续至5月5日23点59分。

紧接着第二天（4月26日晚），DeepSeek宣布，全系API的输入缓存命中价，永久降至原有价格的1/10。最新调价后，DeepSeek V4 Flash每百万Tokens输入缓存命中价格为0.02元，DeepSeek V4 Pro为0.025元（已调价基础上的十分之一）。

V4降价的底气，根源在于V4本身的架构设计。

V4引入了混合稀疏注意力机制，包含两种注意力模式：CSA（压缩稀疏注意力）对强关联的Token精读，HCA（重度压缩注意力）对弱关联的内容快速略过，不做全量计算，这样让长上下文的边际成本大幅下降。

V4的另一项关键设计，是FP4（4位浮点数）+FP8（8位浮点数）的混合精度。精度可以理解为芯片存储数字时用多少位来表示一个小数，位数越少，占用的显存越小，计算速度越快。FP4是目前最低的商用精度，每个参数只用4位表示，内存占用比FP8再减半。

DeepSeek-V4 和 DeepSeek-V3.2 的计算量和显存容量随上下文长度的变化

基于这样的创新架构，V4做到了100万Token的长上下文场景下，V4 Pro单Token推理的计算量只有上一代V3.2的27%，KV Cache占用降至10%。也就是说，同样的硬件资源，V4能处理的并发用户数量，理论上是上一代的数倍，而同样显存能同时维持的缓存条目多了十倍，计算成本的压缩，为定价空间的释放奠定了基础。

由此便可理解，为什么这次降价幅度最狠的是“缓存命中价”。所谓“缓存命中”，是指大模型在处理请求时，如果上一次请求已经处理过，模型可以把这部分的中间计算结果缓存下来，下次请求时直接复用，不用重新计算，自然也不用重新计费。

这个便是V4 KV Cache压缩技术的直接变现。这项技术和定价，恰恰也正击中Agent类应用的痛点。

Agent典型的调用模式是：系统提示词很长（定义Agent的角色、能力边界、工具列表），这部分在每次请求里完全不变；用户输入和工具返回结果每次不同，但相对短。

V4用价格杠杆鼓励开发者把固定内容（系统提示词、工具定义、文档模板）放在请求头部，让缓存机制自动生效，缓存越稳定，命中率越高，开发者付的钱越少，部署Agent的边际成本也就越低。

如果这套机制真的生效，意味着一个被高频调用的Agent产品，其调用成本只是每次真正变化的用户输入和模型输出，而这样的成本已经接近普通对话。

那么，此前困扰产业的“昂贵的Token”可以重新找到解题方式。

未掀起大规模切换潮

落地仍在“观望期”

尽管发布即热度拉满，但在产业侧，V4并未立即掀起大规模切换潮。

彭璐告诉记者，目前企业客户在模型选择上整体仍处于观望阶段，对成熟客户来说，一旦已有稳定模型在运行，不会轻易切换。企业通常需要完成适配、测试和成本验证，确认确实能够降本增效后，才会进入生产环境。

因此，无论是客户侧还是服务商侧，都需要经历压力测试、生产验证以及基于客户语料的持续调优过程。

“至少在我们这边，V4这样的新模型要大规模在客户端落地，可能还需要1至2个月时间。”他说，目前客户尚未出现大面积“必须切换到新一代模型”的趋势，“一些友商之间也有交流，至少从我们这里来看，还没有明显的爆发。”

在技术层面，彭璐认为，DeepSeek V4的出现对行业仍具有重要推动意义，“它在算法和专利上的一些创新已经通过论文形式公开，这些成果对整个行业，包括多模态模型的发展，都会产生正向影响。”

当Token革命撞上算力的墙

另一个更现实的问题是算力供给。

V4的另一重意义，在于其释放的“全栈国产落地”信号。过去算法公司与国产芯片厂商之间长期存在错位：模型厂商担心硬件生态拖累研发，芯片厂商则缺少对最前沿的大模型进行深度调优。

随着V4的发布，国产算力厂商迅速跟进：华为、寒武纪、海光等相继宣布完成适配或支持。

不过，适配争议仍然存在。

彭璐表示，公司内部已经在推进相关部署，尽管目前仍处于业务起步阶段，但开发团队在实际落地过程中，并未反馈明显的技术障碍，“至少在现阶段，没有听到什么问题。”

对于外界关注的长上下文能力是否增加适配难度，彭璐认为整体可控，并未成为决定性门槛。在算力配置方面，当前行业确实存在对高端GPU配置的讨论，例如需要多台高性能卡进行支撑。“像B200、B300这类芯片，本身在设计时就对FP8+FP4做了支持，因此在适配上会更具优势。包括部分国产芯片在内，也在逐步支持类似能力，整体生态正在完善中。”

不同硬件架构之间的适配体验仍可能存在差异。对于网络上关于适配难度的争议，彭璐认为，部分声音可能受到市场利益驱动，“不同厂商、不同角色的立场不一样，对同一技术的解读也会有差异。”

归根结底，问题仍指向上游制造能力。DeepSeek也在其发布通稿中坦言，受限于高端算力，Pro服务吞吐有限，预计下半年昇腾950超节点批量上市后，Pro价格会大幅下调。

对于国产算力的未来，彭璐表示看好，但短期仍受制于产能，“关键还是在上游制造能力，如果这些瓶颈不能解决，芯片供应仍然会受限。”

排版／季嘉颖

图片／ MiniMax DeepSeek AIGC

来源／《IT时报》公众号vittimes

E N D