金年金字招牌(jinnian)今年会今年会2024-DeepSeek V4还是神，接下来和华为一起让token大降价

　　首页财产ai正文 DeepSeek V4还有是神，接下来及华为一路让token年夜降价 DeepSeek V4发布，其架构进化，于处置惩罚长文本上有立异，与昇腾适配达“原生”程度，还有先容了练习优化和后练习流程等内容。 2026-04-24 15:03 ·微信公家号：硅星人王兆洋 AI投资人解读· DeepSeek V4架构连续进化，处置惩罚百万token长文本时，算力仅为V3.2的27%，KV缓存占10%。与昇腾适配到达“原生”程度，Pro版价格有望下调。后练习流程怪异，于多个使命基准测试中体现优秀。· 行业竞争激烈，可能面对其他模子追逐硬件适配仍需优化，存于潜于危害。总结：DeepSeek V4依附技能立异与机能上风极具投资潜力。技能上的冲破使其于长文本处置惩罚范畴领先，与昇腾的优良适配和成本优化空间为其加分。但行业竞争及硬件适配危害需存眷，建议深切评估技能连续性与市场竞争力。内容由AI天生，仅供参考

V4 终究终究终究终究是来了。

并且它不于假期，不于深夜，而是忽然就发了。模子，开源权重，技能陈诉及官方的文章同时发给所有人。

官方给出的亮点是“百万上下文的普惠”。但显然，这个模子里DeepSeek做的立异事情还有长短常的多。

一如既往的，它的技能陈诉是今天比读任何新闻都过瘾的存于。

这一次V4最使人惊喜的是，它的架构依然于进化，且依然极端智慧。它告诉整个 AI 圈一件事：不消堆参数，不消买更多卡，仅靠对于留意力机制及练习方式的从头发现，就能把百万 token 长文本的门坎踩到地板上。

并且，外界一直于存眷的用“华为芯片”练习的问题，也终究有所揭晓：此次华为昇腾的名字，是及 NVIDIA 并列写于验证平台里的。虽然从技能陈诉来看，练习部门依然年夜几率用的英伟达芯片，但于与昇腾的适配上，它显然到达了史无前例的“原生”程度。这后面的象征，比跑分更成心思。

而于官方文档里，API价格之处有一行小字：

受限在高端算力，今朝Pro的办事吞吐十分有限，估计下半年昇腾950超节点批量上市后，Pro的价格会年夜幅下调。

from clipboard

这一样让人浮想连翩，且让人对于将来越发期待。

27% 及 10%，这两个数字界说了甚么叫“效率革命”

看看技能陈诉里的硬数据。基准是 DeepSeek-V3.2——自己已经经是一个效率很高的模子。

于 100 万 token 上下文下（约莫能装三部《三体》），DeepSeek-V4-Pro——1.6 万亿参数，激活 49B——处置惩罚一个新 token 需要的算力只有 V3.2 的 27%，KV 缓存只占 10%。

而小杯 DeepSeek-V4-Flash：284B 参数，激活仅 13B，算力只要 10%，缓存只要 7%。

一个轻易被纰漏的细节：陈诉明确标注，单 token 推理算力的单元是等效 FP8 FLOPs。这不是拿低精度取巧，而是已经经换算到及 V3.2 不异的精度尺度去比。并且，V4 系列的路由专家权重还有用了 FP4 精度，陈诉尤其指出，现有硬件上 FP4 及 FP8 的峰值算力不异，但将来硬件上 FP4 可以再超出跨越三分之一的效率。换句话说，此刻的数字还有不是天花板，等昇腾 950 这种新硬件到位，还有有一波可挖的潜力。

长上下文，正于从豪侈品酿成日用品。

from clipboard

凭甚么能做到？两年夜压缩留意力，从泉源上做手术

传统 Transformer 处置惩罚长文本的死穴：序列长度加 N 倍，留意力计较量平方级爆炸，KV 缓存线性膨胀。这个瓶颈不破，百万 token 就只是论文里的数字。

DeepSeek V4 的措施不是拼集，而是直接革新留意力机制自己。整体架构上，留意力层采用 CSA 及 HCA 交错配置，前馈层沿用 DeepSeekMoE，残差毗连用 mHC 增强。焦点是两种新留意力。

CSA——压缩稀少留意力

CSA 的数据流分三路并行。KV token 的隐蔽状况同时进入三个模块：一个 Token-Level Compressor 卖力把每一 4 个 token 的 KV 缓存压缩成一个条款；一个 Lightning Indexer 天生“索引键”，用在后续的匹配打分；统一个索引器还有天生“索引分数”。查询 token 的隐蔽状况则零丁进入 Lightning Indexer，天生查询侧的索引分数。双方一合，送入 Top-k 选择器，从所有压缩块中只挑出最相干的 512 个（Pro 版是 1024 个）。末了，这些选中的压缩块及滑动窗口里保留的 128 个原始 token 拼于一路，送进焦点的多查询留意力计较。

from clipboard

索引器的实现细节：查询端先降维到 dc=1024，削减参数目，再升维到多头索引查询，共同 ReLU 激活后与压缩索引键计较分数。这一整套不是简朴的“截断”，是学出来的动态筛选——哪些信息主要、哪些可以纰漏，由模子本身于练习中决议。

HCA——重度压缩留意力

及 CSA 差别，HCA 去失了整个稀少选择链路——没有 Lightning Indexer，没有 Top-k Selector。数据流很是直接：KV token 隐蔽状况颠末 Token-Level Compressor 压缩（压缩比 m'=128，弘远在 CSA 的 4），获得的压缩条款直接与滑动窗口 KV 拼于一路，送进 MQA。由于每一条款笼罩 128 个 token，条款总量已经经很少，全量算也不贵，免却了筛选环节。这是为了抓全局布局，防止模子“只见树木不见丛林”。

两种留意力都分外配了一个滑动窗口，保留近来 128 个 token 的原始 KV 不压缩，确保局部依靠没有精度丧失。同时还有用了留意力沉降技能——给每一个头一个可进修的 sink logit，加到留意力的分母里，让每一个头可以选择“甚么都不存眷”。

from clipboard

别的，陈诉吐露了一个主要的工程决议：CSA 及 HCA 于 Query 及 KV 上只对于末了 64 个维度施加 RoPE 位置编码，其他维度不编码。同时 KV 缓存采用混淆精度存储——RoPE 维度用 BF16，其余维度用 FP8——又把缓存砍失近一半。

而这套留意力架构要真正落地，缓存治理也必需从头设计。V4 的 KV 缓存被拆成两年夜块：一块是“状况缓存”，每一个哀求分一个固定巨细的区域，存滑动窗口近来 128 个 token 的 KV，以和 CSA/HCA 中还有没攒够 4 个或者 128 个 token、暂时没法压缩的“尾料”。

from clipboard

另外一块是“经典缓存”，存已经经压缩好的条款。经典缓存里，每一个块笼罩的原始 token 数是两种压缩比（4 及 128）的最小公倍数，如许统一块里 CSA 及 HCA 的压缩成果都能对于齐——CSA 产 32 个压缩条款，HCA 产 1 个——不会由于两种压缩率纷歧致致使碎片化治理。这套缓存结构，是百万上下文能从试验室走进出产情况的要害工程基础举措措施。

from clipboard

以是这套方案是压缩、稀少化、混淆精度、滑动窗口、留意力沉降、邃密缓存治理多管齐下。局部细节、中段联系关系、全局脉络，全捉住了，算力开消断崖式降落。

也就是说，传统留意力机制要求每一个 token 及汗青上所有 token 都做一次交互，汗青多长，活儿就多沉。DeepSeek V4 做的，是把“影象”自己先收拾成条理化的择要——有些是每一一小段的凝炼，有些是每一一章的归纳综合，再加之面前几句话的原文。需要挪用哪一层、哪一段，由模子本身按照当前要解决的问题即场判定。内存里再也不存一座山，算力不消翻整座山，百万上下文的成本天然下来了。

Muon 及 mHC：练习上的降本增效

架构的智慧不止于推理侧。陈诉用专门章节讲了两项练习优化。

一个是此前已经经被放出来过的 Muon 优化器。

年夜大都优化器拿到梯度，一个参数一个参数地调。Muon 不这么干。它把整个梯度矩阵做一步“捋正”运算，让各行更新标的目的彼此自力、不打斗。效果就是每一次更新都踩于最洁净的标的目的上，一样步数学到更多，变相省算力。为了共同 Muon，漫衍式计谋也改了：浓厚参数限定切分，每一个 GPU 至多管五个完备矩阵；MoE 参数直接拼成年夜向量平分，不切单个矩阵。梯度通讯还有做了 BF16 量化，砍失一半通讯量。

另外一个是 mHC——流形约束超毗连。

深层收集的老浩劫是旌旗灯号穿几十层，要末逐层放年夜到溢出，要末衰减到消散。mHC 的解法是给残差毗连加个数学笼子——强迫每一层的混淆矩阵满意“每一行每一列及为 1，元素非负”。这包管了不管怎么传，幅度不发散。

实现上，DeepSeek V4 拿到参数后，做 20 次瓜代的行归一化及列归一化，硬把矩阵拉回约束调集。陈诉认可万亿参数练习碰到了丧失尖峰，但用两招解决了：“预判路由”打破路由及主收集的同步更新轮回，“SwiGLU 截断”把激活值钳于 [-10,10]。

一如既往的，数学上很洁净，工程上练习不崩。

后练习更绝：分头训专才，再无损蒸馏

DeepSeek V4 的后练习流程也颇有设法，陈诉用第五章胪陈了这套“先分后合”的工艺。

*步，别离对于代码、数学、智能体、指令遵照等标的目的自力练习专家模子。每一个专家都先做 SFT 打底，再用 GRPO 强化进修，共同范畴专属的奖励模子。连奖励模子自己也是天生式的——让模子同时学会“判卷”及“答卷”，削减对于人类标注的依靠。

陈诉中颇有意思的一点是为差别推理模式设了三种档位：Non-think（无思索标签，快速回覆）、Think High（显式思维链但受控长度）、Think Max（极限思维模式，给非凡体系提醒同时放宽长度处罚）。三种模式于 RL 练习时别离用差别的上下文窗口及处罚系数，让统一套权重能按照场景切推理深度。

第二步，用于计谋蒸馏把所有专才的常识交融到一个同一模子里。要害是，他们做的不是 token 级类似，而是全词表级另外反向 KL 散度——连结西席完备的 logit 漫衍。这带来了巨年夜的计较压力：词表 128K，十多个教员，每一个都是万亿参数级别。陈诉给出的解决路径是：西席权重从中央化存储按需加载；不存完备 logits，只缓末了一层隐蔽状况，练习时即时重算；按西席索引排序样本，包管统一时刻 GPU 上只有一个西席头。这些都是出产情况才会遇到的硬问题。

效果直接反应于基准上。Pro Max 于常识基准 SimpleQA 拿下 57.9，比开源*超出跨越 20 个点；数学 Putnam 2025 做到 120/120 满分；Codeforces 评分于人类选手中排第 23。这三个分属差别类型的使命同时冲顶，暗地里的线路选择是被验证了的。

from clipboard

“细粒度通讯-计较堆叠”及昇腾“原生”

陈诉里另外一个让所有人都很是存眷的工作，就是：它及华为昇腾究竟是甚么瓜葛。

陈诉 3.1 节原文是：“咱们于 NVIDIA GPU 及华为昇腾 NPU 两个平台上验证了这个细粒度的专家并行方案。”两个平台并列，写于验证结论里。

from clipboard

这套方案的焦点是把 MoE 的通讯及计较切成更细的颗粒，按“波”调理。每一个波只含一小部门专家，这个波的通讯一完建立刻最先计较，统一时刻，下一个波的通讯及上一个波的成果回传同步举行。陈诉里的加快比数据是：通用推理 1.50–1.73 倍，RL 长尾小批次最高 1.96 倍。

from clipboard

陈诉还有给了硬件设计公式：每一 GBps 通讯带宽对于应 6.1 TFLOP/s 算力，通讯就能被彻底隐蔽。这象征着 DeepSeek 于用架构告诉硬件厂商：不消卷带宽，按这个比例配算力就行。这比适配某个详细型号高一个维度——是界说需求。昇腾 950 假如按这个配比来设计，跑 V4 就能把使用率拉到满。

你可以如许理解，MoE 每一次计较都要于差别 GPU 之间搬运中间成果，之前是搬完才算，搬运时长全于等。此刻是把搬运拆碎，搬一小批就算一小批，算的同时继承搬下一批。成果就是搬运时间被计较时间吃失了，用户觉得不到等。这套机制不挑硬件，只要算力及带宽的比例到位，NVIDIA 还有是昇腾都能跑出高使用率。

陈诉也提到了用 TileLang 做算子开发，共同 Z3 SMT 求解器主动验证及优化；同时要求练习推理“批次稳定”及“确定性”——统一个 token 不管及谁一批、于甚么硬件上，输出比特级一致。这对于昇腾这类新硬件的调试及部署是基础举措措施级的撑持。

虽然开源 MegaMoE 内核还有是 CUDA 版，主力练习集群年夜几率仍是 NVIDIA，但架构上已经经把适配昇腾的泥土翻松了、路摊平了。

加之陈诉公然说 FP4 于将来硬件上还有能再提效三分之一，以和官方文档里那句“估计下半年昇腾 950 超节点批量上市后 Pro 价格年夜幅下调”，旌旗灯号已经经不克不及更明确了。

看完V4的陈诉，感慨它想患上够清晰。

已往两年，行业解决长文本问题的主流思绪素质上是于堆资源。要末堆显存，把KV缓存硬塞进去；要末堆算力，让芯片更快一点。这条路走到此刻，边际效益已经经很较着了。

DeepSeek V4换了一个彻底差别的标的目的——再也不追着“怎么能扛住”不放，而是问“这工具真的需要全记住吗”。CSA及HCA素质上是让模子于影象的时辰就有了条理感，细颗粒的、粗颗粒的、近来的原文，各存各的。这再也不是工程上的让步，而是架构层面临“甚么值患上记住”这个问题的从头回覆。思绪一旦转过来了，效率的晋升就是数目级的。

而这套工具还有有一个轻易被低估的价值，就是它让硬件的选择权回到了算法这边。

已往芯片决议模子能跑多长的上下文，带宽不敷就不行。V4这套压缩加海浪调理的方案出来后，算及搬的比例被一个公式界说清晰了。这象征着不是算法去适配硬件，而是算法于告诉硬件应该怎么设计。昇腾被写进验证平台、FP4留出三分之一效率冗余，这些细节放于一路看，就知道它从一最先就没筹算绑定某一家。这类自力性，于此刻这个时间点，比机能自己更有份量。

V4的神就于这里。

它再次给各人提供了一个更智慧的选择。而这恰是前不久黄仁勋于播客里有些掉去耐烦时表达的担忧：当所有人都于去CUDA，都于挣脱硬件主导的限定，当DeepSeek这种开源模子有一天可以原生长于华为等其他芯片生态里。今天AI格式的根底会迅速摆荡。此刻看，他的担忧不无原理。

「不诱在誉，不恐在诽，率道而行，端然正己。」这是DeepSeek官方通知布告里的一句与其他内容都差别的话，这句话也险些是V4的特质，它让人继承对于DeepSeek接下来的方针布满期待。

【本文由投资界互助伙伴微信公家号：硅星人授权发布，本平台仅提供信息存储办事。】若有任何疑难，请接洽（editor@zero2ipo.com.cn）投资界处置惩罚。

-金年金字招牌(jinnian)今年会今年会2024

今年会今年会2024控股集团有限公司

金年金字招牌(jinnian)今年会今年会2024-DeepSeek V4还是神，接下来和华为一起让token大降价