DeepSeek正在回答一个新问题:当大模型从“比谁更聪明”走向“比谁更能被长期调用”,一家模型公司还够不够?
过去一年半里,梁文锋一直被外界视为一个典型的技术理想主义者。DeepSeek R1的爆火强化了这种印象:低调、克制、不依赖融资叙事,用工程效率挑战大模型行业的高成本共识。
但最近,DeepSeek身上的标签开始变得复杂。
一边是市场传出首轮融资消息:宁德时代据称已决定参与,潜在投资方还包括腾讯、京东、网易,以及IDG、Monolith等机构。报道称,DeepSeek本轮融资目标约700亿元人民币,投后估值约450亿美元,约合3240亿元人民币。
另一边,是5月23日DeepSeek宣布V4-Pro API价格永久下调75%。
这两件事放在一起看,就不太像一次普通融资,也不太像一次普通降价。它更像是一个信号:DeepSeek正在从一家以模型能力为核心的技术公司,向AI基础设施公司移动。
这个变化,比“梁文锋还理不理想主义”更重要。
真正的问题是:DeepSeek为什么突然需要这么多钱?
一、梁文锋并不缺钱,但DeepSeek缺的是另一种钱
先说一个基本事实:梁文锋并不是传统意义上缺钱的创业者。
DeepSeek背后的幻方量化,长期以来都是国内最赚钱的量化私募之一。公开数据显示,2025年,幻方量化收益均值约56.55%,管理规模超过700亿元人民币。粗略计算,仅浮盈规模就接近400亿元。
这也是为什么,DeepSeek在很长一段时间里看起来不像一家典型AI创业公司。
它不急着融资,不急着商业化,也不怎么做高调PR。相比一个标准的科技独角兽,DeepSeek更像是幻方量化内部长期供血的AI实验室:组织克制,工程导向,目标单一,就是把模型做出来,而且做得足够好。
R1爆火之前,DeepSeek的逻辑相对清晰:用更高的工程效率、更低的训练成本,证明中国团队也可以做出全球领先的大模型。
这套叙事成立的前提是,竞争核心还在模型能力本身。
谁的推理能力更强,谁的训练成本更低,谁的架构更优雅,谁就能在行业里赢得声量。DeepSeek正是在这个阶段成为变量的。
但今天的问题变了。
当大模型竞争从实验室走向真实使用,钱的含义也变了。它不再只是研发经费,也不只是招人预算,而是算力、电力、数据中心、云资源、推理成本、开发者生态和长期服务能力的综合支撑。
这不是幻方量化能不能出钱的问题,而是DeepSeek要不要从一个被母公司供血的技术团队,变成一个能够独立承载行业级调用需求的基础设施平台。

如果是后者,700亿元就不只是融资规模,而是定位变化的价格。
二、从模型能力到Token消耗,竞争指标变了
过去一年,大模型行业最大的变化,不是某一个模型突然领先,而是整个竞争维度发生了迁移。
OpenAI、Gemini、Qwen、Kimi、MiniMax等公司都进入了高频迭代状态。模型能力仍然重要,但它已经不再是唯一决定因素。尤其是Agent开始成为行业共识之后,真正快速增长的变量变成了Token消耗。
ChatBot时代,一次交互通常是用户提问、模型回答。哪怕有上下文,也大多是有限轮次的对话。
Agent不一样。
它会拆解任务,调用工具,多轮验证,自主检查,持续运行。一个看似简单的需求,背后可能包含搜索、规划、代码执行、文件处理、结果校验等多个步骤。
这意味着,同样一个任务,在Agent时代消耗的Token,可能是传统聊天时代的数十倍,甚至上百倍。
大模型公司的核心压力也随之变化。
过去行业喜欢讨论训练成本,讨论一次预训练花了多少钱、用了多少卡、跑了多久。





