首页财产ai正文 DeepSeek V4还有是神,接下来及华为一路让token年夜降价 DeepSeek V4发布,其架构进化,于处置惩罚长文本上有立异,与昇腾适配达“原生”程度,还有先容了练习优化和后练习流程等内容。 2026-04-24 15:03 ·微信公家号:硅星人王兆洋 AI投资人解读· DeepSeek V4架构连续进化,处置惩罚百万token长文本时,算力仅为V3.2的27%,KV缓存占10%。与昇腾适配到达“原生”程度,Pro版价格有望下调。后练习流程怪异,于多个使命基准测试中体现优秀。· 行业竞争激烈,可能面对其他模子追逐硬件适配仍需优化,存于潜于危害。总结:DeepSeek V4依附技能立异与机能上风极具投资潜力。技能上的冲破使其于长文本处置惩罚范畴领先,与昇腾的优良适配和成本优化空间为其加分。但行业竞争及硬件适配危害需存眷,建议深切评估技能连续性与市场竞争力。内容由AI天生,仅供参考
V4 终究终究终究终究是来了。
并且它不于假期,不于深夜,而是忽然就发了。模子,开源权重,技能陈诉及官方的文章同时发给所有人。
官方给出的亮点是“百万上下文的普惠”。但显然,这个模子里DeepSeek做的立异事情还有长短常的多。

一如既往的,它的技能陈诉是今天比读任何新闻都过瘾的存于。
这一次V4最使人惊喜的是,它的架构依然于进化,且依然极端智慧。它告诉整个 AI 圈一件事:不消堆参数,不消买更多卡,仅靠对于留意力机制及练习方式的从头发现,就能把百万 token 长文本的门坎踩到地板上。
并且,外界一直于存眷的用“华为芯片”练习的问题,也终究有所揭晓:此次华为昇腾的名字,是及 NVIDIA 并列写于验证平台里的。虽然从技能陈诉来看,练习部门依然年夜几率用的英伟达芯片,但于与昇腾的适配上,它显然到达了史无前例的“原生”程度。这后面的象征,比跑分更成心思。
而于官方文档里,API价格之处有一行小字:
受限在高端算力,今朝Pro的办事吞吐十分有限,估计下半年昇腾950超节点批量上市后,Pro的价格会年夜幅下调。

这一样让人浮想连翩,且让人对于将来越发期待。
27% 及 10%,这两个数字界说了甚么叫“效率革命”
看看技能陈诉里的硬数据。基准是 DeepSeek-V3.2——自己已经经是一个效率很高的模子。
于 100 万 token 上下文下(约莫能装三部《三体》),DeepSeek-V4-Pro——1.6 万亿参数,激活 49B——处置惩罚一个新 token 需要的算力只有 V3.2 的 27%,KV 缓存只占 10%。
而小杯 DeepSeek-V4-Flash:284B 参数,激活仅 13B,算力只要 10%,缓存只要 7%。
一个轻易被纰漏的细节:陈诉明确标注,单 token 推理算力的单元是等效 FP8 FLOPs。这不是拿低精度取巧,而是已经经换算到及 V3.2 不异的精度尺度去比。并且,V4 系列的路由专家权重还有用了 FP4 精度,陈诉尤其指出,现有硬件上 FP4 及 FP8 的峰值算力不异,但将来硬件上 FP4 可以再超出跨越三分之一的效率。换句话说,此刻的数字还有不是天花板,等昇腾 950 这种新硬件到位,还有有一波可挖的潜力。
长上下文,正于从豪侈品酿成日用品。

凭甚么能做到?两年夜压缩留意力,从泉源上做手术
传统 Transformer 处置惩罚长文本的死穴:序列长度加 N 倍,留意力计较量平方级爆炸,KV 缓存线性膨胀。这个瓶颈不破,百万 token 就只是论文里的数字。
DeepSeek V4 的措施不是拼集,而是直接革新留意力机制自己。整体架构上,留意力层采用 CSA 及 HCA 交错配置,前馈层沿用 DeepSeekMoE,残差毗连用 mHC 增强。焦点是两种新留意力。
CSA——压缩稀少留意力
CSA 的数据流分三路并行。KV token 的隐蔽状况同时进入三个模块:一个 Token-Level Compressor 卖力把每一 4 个 token 的 KV 缓存压缩成一个条款;一个 Lightning Indexer 天生“索引键”,用在后续的匹配打分;统一个索引器还有天生“索引分数”。查询 token 的隐蔽状况则零丁进入 Lightning Indexer,天生查询侧的索引分数。双方一合,送入 Top-k 选择器,从所有压缩块中只挑出最相干的 512 个(Pro 版是 1024 个)。末了,这些选中的压缩块及滑动窗口里保留的 128 个原始 token 拼于一路,送进焦点的多查询留意力计较。

索引器的实现细节:查询端先降维到 dc=1024,削减参数目,再升维到多头索引查询,共同 ReLU 激活后与压缩索引键计较分数。这一整套不是简朴的“截断”,是学出来的动态筛选——哪些信息主要、哪些可以纰漏,由模子本身于练习中决议。
HCA——重度压缩留意力
及 CSA 差别,HCA 去失了整个稀少选择链路——没有 Lightning Indexer,没有 Top-k Selector。数据流很是直接:KV token 隐蔽状况颠末 Token-Level Compressor 压缩(压缩比 m'=128,弘远在 CSA 的 4),获得的压缩条款直接与滑动窗口 KV 拼于一路,送进 MQA。由于每一条款笼罩 128 个 token,条款总量已经经很少,全量算也不贵,免却了筛选环节。这是为了抓全局布局,防止模子“只见树木不见丛林”。
两种留意力都分外配了一个滑动窗口,保留近来 128 个 token 的原始 KV 不压缩,确保局部依靠没有精度丧失。同时还有用了留意力沉降技能——给每一个头一个可进修的 sink logit,加到留意力的分母里,让每一个头可以选择“甚么都不存眷”。

别的,陈诉吐露了一个主要的工程决议:CSA 及 HCA 于 Query 及 KV 上只对于末了 64 个维度施加 RoPE 位置编码,其他维度不编码。同时 KV 缓存采用混淆精度存储——RoPE 维度用 BF16,其余维度用 FP8——又把缓存砍失近一半。
而这套留意力架构要真正落地,缓存治理也必需从头设计。V4 的 KV 缓存被拆成两年夜块:一块是“状况缓存”,每一个哀求分一个固定巨细的区域,存滑动窗口近来 128 个 token 的 KV,以和 CSA/HCA 中还有没攒够 4 个或者 128 个 token、暂时没法压缩的“尾料”。

另外一块是“经典缓存”,存已经经压缩好的条款。经典缓存里,每一个块笼罩的原始 token 数是两种压缩比(4 及 128)的最小公倍数,如许统一块里 CSA 及 HCA 的压缩成果都能对于齐——CSA 产 32 个压缩条款,HCA 产 1 个——不会由于两种压缩率纷歧致致使碎片化治理。这套缓存结构,是百万上下文能从试验室走进出产情况的要害工程基础举措措施。

以是这套方案是压缩、稀少化、混淆精度、滑动窗口、留意力沉降、邃密缓存治理多管齐下。局部细节、中段联系关系、全局脉络,全捉住了,算力开消断崖式降落。
也就是说, 传统留意力机制要求每一个 token 及汗青上所有 token 都做一次交互,汗青多长,活儿就多沉。DeepSeek V4 做的,是把“影象”自己先收拾成条理化的择要——有些是每一一小段的凝炼,有些是每一一章的归纳综合,再加之面前几句话的原文。需要挪用哪一层、哪一段,由模子本身按照当前要解决的问题即场判定。内存里再也不存一座山,算力不消翻整座山,百万上下文的成本天然下来了。
Muon 及 mHC:练习上的降本增效
架构的智慧不止于推理侧。陈诉用专门章节讲了两项练习优化。
一个是此前已经经被放出来过的 Muon 优化器。
年夜大都优化器拿到梯度,一个参数一个参数地调。Muon 不这么干。它把整个梯度矩阵做一步“捋正”运算,让各行更新标的目的彼此自力、不打斗。效果就是每一次更新都踩于最洁净的标的目的上,一样步数学到更多,变相省算力。为了共同 Muon,漫衍式计谋也改了:浓厚参数限定切分,每一个 GPU 至多管五个完备矩阵;MoE 参数直接拼成年夜向量平分,不切单个矩阵。梯度通讯还有做了 BF16 量化,砍失一半通讯量。
另外一个是 mHC——流形约束超毗连。
深层收集的老浩劫是旌旗灯号穿几十层,要末逐层放年夜到溢出,要末衰减到消散。mHC 的解法是给残差毗连加个数学笼子——强迫每一层的混淆矩阵满意“每一行每一列及为 1,元素非负”。这包管了不管怎么传,幅度不发散。
实现上,DeepSeek V4 拿到参数后,做 20 次瓜代的行归一化及列归一化,硬把矩阵拉回约束调集。陈诉认可万亿参数练习碰到了丧失尖峰,但用两招解决了:“预判路由”打破路由及主收集的同步更新轮回,“SwiGLU 截断”把激活值钳于 [-10,10]。
一如既往的,数学上很洁净,工程上练习不崩。
后练习更绝:分头训专才,再无损蒸馏
DeepSeek V4 的后练习流程也颇有设法,陈诉用第五章胪陈了这套“先分后合”的工艺。
*步,别离对于代码、数学、智能体、指令遵照等标的目的自力练习专家模子。每一个专家都先做 SFT 打底,再用 GRPO 强化进修,共同范畴专属的奖励模子。连奖励模子自己也是天生式的——让模子同时学会“判卷”及“答卷”,削减对于人类标注的依靠。
陈诉中颇有意思的一点是为差别推理模式设了三种档位:Non-think(无思索标签,快速回覆)、Think High(显式思维链但受控长度)、Think Max(极限思维模式,给非凡体系提醒同时放宽长度处罚)。三种模式于 RL 练习时别离用差别的上下文窗口及处罚系数,让统一套权重能按照场景切推理深度。
第二步,用于计谋蒸馏把所有专才的常识交融到一个同一模子里。要害是,他们做的不是 token 级类似,而是全词表级另外反向 KL 散度——连结西席完备的 logit 漫衍。这带来了巨年夜的计较压力:词表 128K,十多个教员,每一个都是万亿参数级别。陈诉给出的解决路径是:西席权重从中央化存储按需加载;不存完备 logits,只缓末了一层隐蔽状况,练习时即时重算;按西席索引排序样本,包管统一时刻 GPU 上只有一个西席头。这些都是出产情况才会遇到的硬问题。
效果直接反应于基准上。Pro Max 于常识基准 SimpleQA 拿下 57.9,比开源*超出跨越 20 个点;数学 Putnam 2025 做到 120/120 满分;Codeforces 评分于人类选手中排第 23。这三个分属差别类型的使命同时冲顶,暗地里的线路选择是被验证了的。

“细粒度通讯-计较堆叠”及昇腾“原生”
陈诉里另外一个让所有人都很是存眷的工作,就是:它及华为昇腾究竟是甚么瓜葛。
陈诉 3.1 节原文是:“咱们于 NVIDIA GPU 及华为昇腾 NPU 两个平台上验证了这个细粒度的专家并行方案。”两个平台并列,写于验证结论里。

这套方案的焦点是把 MoE 的通讯及计较切成更细的颗粒,按“波”调理。每一个波只含一小部门专家,这个波的通讯一完建立刻最先计较,统一时刻,下一个波的通讯及上一个波的成果回传同步举行。陈诉里的加快比数据是:通用推理 1.50–1.73 倍,RL 长尾小批次最高 1.96 倍。

陈诉还有给了硬件设计公式:每一 GBps 通讯带宽对于应 6.1 TFLOP/s 算力,通讯就能被彻底隐蔽。这象征着 DeepSeek 于用架构告诉硬件厂商:不消卷带宽,按这个比例配算力就行。这比适配某个详细型号高一个维度——是界说需求。昇腾 950 假如按这个配比来设计,跑 V4 就能把使用率拉到满。
你可以如许理解,MoE 每一次计较都要于差别 GPU 之间搬运中间成果,之前是搬完才算,搬运时长全于等。此刻是把搬运拆碎,搬一小批就算一小批,算的同时继承搬下一批。成果就是搬运时间被计较时间吃失了,用户觉得不到等。这套机制不挑硬件,只要算力及带宽的比例到位,NVIDIA 还有是昇腾都能跑出高使用率。
陈诉也提到了用 TileLang 做算子开发,共同 Z3 SMT 求解器主动验证及优化;同时要求练习推理“批次稳定”及“确定性”——统一个 token 不管及谁一批、于甚么硬件上,输出比特级一致。这对于昇腾这类新硬件的调试及部署是基础举措措施级的撑持。
虽然开源 MegaMoE 内核还有是 CUDA 版,主力练习集群年夜几率仍是 NVIDIA,但架构上已经经把适配昇腾的泥土翻松了、路摊平了。
加之陈诉公然说 FP4 于将来硬件上还有能再提效三分之一,以和官方文档里那句“估计下半年昇腾 950 超节点批量上市后 Pro 价格年夜幅下调”,旌旗灯号已经经不克不及更明确了。
看完V4的陈诉,感慨它想患上够清晰。
已往两年,行业解决长文本问题的主流思绪素质上是于堆资源。要末堆显存,把KV缓存硬塞进去;要末堆算力,让芯片更快一点。这条路走到此刻,边际效益已经经很较着了。
DeepSeek V4换了一个彻底差别的标的目的——再也不追着“怎么能扛住”不放,而是问“这工具真的需要全记住吗”。CSA及HCA素质上是让模子于影象的时辰就有了条理感,细颗粒的、粗颗粒的、近来的原文,各存各的。这再也不是工程上的让步,而是架构层面临“甚么值患上记住”这个问题的从头回覆。思绪一旦转过来了,效率的晋升就是数目级的。
而这套工具还有有一个轻易被低估的价值,就是它让硬件的选择权回到了算法这边。
已往芯片决议模子能跑多长的上下文,带宽不敷就不行。V4这套压缩加海浪调理的方案出来后,算及搬的比例被一个公式界说清晰了。这象征着不是算法去适配硬件,而是算法于告诉硬件应该怎么设计。昇腾被写进验证平台、FP4留出三分之一效率冗余,这些细节放于一路看,就知道它从一最先就没筹算绑定某一家。这类自力性,于此刻这个时间点,比机能自己更有份量。
V4的神就于这里。
它再次给各人提供了一个更智慧的选择。而这恰是前不久黄仁勋于播客里有些掉去耐烦时表达的担忧:当所有人都于去CUDA,都于挣脱硬件主导的限定,当DeepSeek这种开源模子有一天可以原生长于华为等其他芯片生态里。今天AI格式的根底会迅速摆荡。此刻看,他的担忧不无原理。
「不诱在誉,不恐在诽,率道而行,端然正己。」这是DeepSeek官方通知布告里的一句与其他内容都差别的话,这句话也险些是V4的特质,它让人继承对于DeepSeek接下来的方针布满期待。
【本文由投资界互助伙伴微信公家号:硅星人授权发布,本平台仅提供信息存储办事。】若有任何疑难,请接洽(editor@zero2ipo.com.cn)投资界处置惩罚。
-金年金字招牌(jinnian)今年会今年会2024








