DeepSeek V4终于发布,但它留下的5道主观题还没有答案

本文来源:36氪,作者:周鑫雨,发布时间:2026年04月24日
DeepSeek V4终于发布:1.6T参数+1M上下文,国产大模型再突破
被调侃“Next Week”近3个月的DeepSeek V4,终于显露真身。1.6T的最大参数量、1M的上下文窗口、针对Agent的性能优化,以及基于MoE(混合专家模型)和稀疏注意力机制DSA,降低计算和显存需求——这些曾被外界纷纷猜测的参数和性能,随着V4的官宣,一锤定音。
姗姗来迟背后:芯片迁移与内部决策变动
V4延迟发布的原由,与将训练框架从英伟达迁移到华为昇腾上有关,也与DeepSeek内部的决策变动有关。据了解,2025年年中,DeepSeek曾面临一次较为严重的训练失败。“当时,DeepSeek面临重新适配芯片的问题。”一名知情者提到,“内部有关训练方向的意见也不完全统一。梁文锋提出了一些自己的要求,但在执行层面很难折中。”

不过,与外界关于“新模型支持多模态生成和理解”的猜测不同,V4依然是个语言模型。暂缓多模态生成的训练策略,主要源于算力和现金的掣肘。
融资窗口开启:商业化转型迫在眉睫
多名知情者告诉《智能涌现》,DeepSeek的对外融资窗口,是2026年4月中旬打开的。内部的导火索,是DeepSeek需要更多资金支持,训练参数规模更大的模型,同时,留住和招纳更多的顶级人才。“1.6T的参数量与OpenAI、Anthropic等顶级厂商的模型相比,并不具有绝对的竞争力。”一名从业者对我们提到,很快,国内也有模型厂商,将发布3T参数规模的模型。
在人才侧,随着郭达雅(DeepSeek R1核心作者)、王炳宣(DeepSeek LLM核心作者)等人才被字节、腾讯等大厂挖走,DeepSeek需要一笔大额融资稳定军心、招兵买马。而转向开放融资的外部导火索,几名业内人士猜测,与某大厂的投资态度有关。在开发融资前,梁文锋和该大厂一号位曾有关注独家注资有过几次商谈。但两名相关人士透露,出让20%股份的条件,没有得到梁文锋的同意。

从理想主义到务实商业化:DeepSeek的转身
R1发布以来,一个明显的转变是:DeepSeek从一个偏非营利的、理想主义的技术乌托邦,被迫快速转向一家重视产品、商业化的务实公司。2026年4月8日,DeepSeek App改版,上线支持复杂推理的“专家模式”,和处理简单任务的“快速模式”——随着V4的发布,我们也从而得知,负责“专家模式”的,是1.6T参数量的V4-pro,支持“快速模式”的,则是284B的V4-flash。
曾有知情人士表示,2025年下半年以来,梁文锋开始重视产品的打磨。有多名大厂AI产品经理向《智能涌现》提到,2025年年末,DeepSeek对产品策略/经理进行了“开闸式招聘”,他们也多次收到DeepSeek HR的联络。DeepSeek是中国AI跻身全球一流的起点,但不会是终点。


