金年金字招牌(jinnian)今年会今年会2024-实测DeepSeek V4,为国产化而生

作者:今年会今年会2024 发布时间:2026-05-10 12:46:34

  首页财产ai正文 实测DeepSeek V4,为国产化而生 今日DeepSeek V4发布,其跑分各方面有增强,参数目近两倍半,价格或者下调,为国产卡设计,今朝非多模态,与Claude Code适配有问题。 2026-04-24 15:52 ·微信公家号:数字生命卡兹克数字生命卡兹克 AI投资人解读· DeepSeek V4各方面有较着增强,于常识推理类跑分迫近Gemini 3.1 Pro,代码类排第三,Agent能力较强,总参数目达1.6T。价格比海外模子自制约60%,将来或者因芯片产能跟上而降价。其于设计上为适配国产卡做了预备。 · 多模态能力缺掉与Claude Code适配有问题,开发速率迟缓,还有存于约束掉效环境。 总结:DeepSeek V4虽未年夜幅领先,但于国产化进程中有主要意义。其机能有亮点,价格有上风,适配国产卡的设计值患上存眷。不外多模态缺掉及适配问题带来必然危害,后续版本若能改良,投资潜力将进一步晋升。内容由AI天生,仅供参考

今天,等了一年的DeepSeek V4,终究发布了。

原来天天都很期待,可是发布的这一刻,忽然觉得进入到了一种贤者模式。

人有点麻了,这一周发了七、8个新模子,近来24小时就发了4个,昨全国午刚最先测MiMo,然后HY3发了,刚写完MiMo,然后GPT-5.5发了,今天刚发完MiMO,然后DeepSeek v4发了。

我此刻就恍如鸡排哥,写完你的写你的,写完你的写你的。

我也*时间把DeepSeek V4接到了我的Claude Code里。

然后许多伴侣问为啥没有R2了,这块我简朴的科普一下下,就是于去年这个阶段,推理模子及非推理模子还有是分隔的,也就是DeepSeek R1是推理模子,DeepSeek V3长短推理模子。

然后到了后面,基本Claude及GPT都还有最先利用混淆模子了,也就是用思索强度去节制模子是否举行推理。

以是DeepSeek V3.1的时辰,也改为了混淆模子的架构,这些V4一样的,也是混淆模子。

以是R2存于的意义此刻就有点不明确了,就像OpenAI o3,就成为了OpenAI的末了一代推理模子,被并到了GPT-5内里。

再简朴说一下DeepSeek V4此次的一些特征。

先看跑分。

这是DeepSeek V4本身的。

各方面都有较着增强。

然后这段时间,模子又太多太杂太乱了,在是我又本身收拾了一下,由于各人的数据及口径老是常常纷歧样,以是这个表能看个年夜概,可是不克不及穷究。。。

先是常识推理类的。

没有数据的就是没放这块的跑分。

可以看到DeepSeek最强的还有是SimpleQA这两个常识类的,迫近Gemini 3.1 Pro,于其他之处只能说中庸。

然儿女码类的。

可以很是较着的看到走的也是Gemini那一卦的,于竞赛、算法类比力强,可是真实代码工程能力上,只能说从分数上看,也没啥年夜幅*,*梯队程度。

代码这块我感觉也能够把Arena最新的评分放出来,今朝DeepSeek V4排第三,*还有是GLM-5.1,MiMo没上榜是由于还有没开源出来,今朝只有API,开源预计下周了。

图像

Agent能力这一卦上。

这个确凿比力强。

跑分年夜概就是如许,实在可以看到比力正常,于此刻一众诸神混战的年月里,可以给到人上人,可是假如各人是夯爆了的预期的话,可能就会掉望了。

然后还有有一个很是直不雅的数据,V4-Pro的总参数目是1.6T,也就是1.6万亿。

V3.2是671B,也就是6710亿,V4的参数目,翻了快要两倍半。

以是实在你可以看到,于如今这个时代,依然还有是年夜就好,年夜就牛逼,年夜就是智慧。

可是由于年夜带来的晋升,也变向带来了Token的涨价,算力就那末多,模子参数愈来愈年夜,Agent推理所用的Token又愈来愈多,不涨价都不成能了。

V4-Pro是输入12元,输出24元每一百万token,V4-Flash是输入1元,输出2元。

图片

换算成美元的话,输入1.74美元每一百万token,输出3.48美元。V4-Flash,输入0.14美元每一百万token,输出0.28美元。

作为对于比,Claude Opus 4.7是输入5美元,输出25美元,GPT-5.5是输入5美元,输出30美元。

MimM-V2.5-Pro于0到256k token内,是¥7/¥21每一百万token(输入/输出),于256k到1M token内是¥14/¥42每一百万token(输入/输出)。

平均下来国产模子价格订价都差未几,虽然有点对于不起DeepSeek一直以来的价格屠夫的称称呼,但还有是年夜概比海外模子平均自制60%摆布。

不外这内里有个细节许多人可能没留意到。

DeepSeek于订价页面底部有一行小字,年夜意是说,受限在高端算力,今朝Pro的办事吞吐十分有限,估计下半年昇腾950超节点批量上市后,Pro的价格会年夜幅下调。

也就是说,V4-Pro此刻的价格还有不是终极态,等芯片产能跟上了,价格还有会往降落,这一点我感觉还有是挺主要的。

然后这个事,加之DeepSeek V4的陈诉里,实在能吐露出很是多国产化的细节,较着是为了给国产芯片做预备的。

有几个小细节,我也不知道我理解的对于不合错误,有年夜佬可以来拍砖一下。

1. V4于后练习及推理系统里引入了MXFP4。

虽然练习还有是用的英伟达系统,可是于后练习及推理上用这个基本上就象征着,DeepSeek于往开放低精度格局及多硬件适配标的目的走,可以适配国产卡好比华为昇腾、寒武纪、壁仞等等,会降低对于NVIDIA的FP8生态的绑定,尤其是推理的时辰,那这就是正儿八经的国孕育发生态国产模子了,惋惜的就是此刻价格还有没下来。

2. V4的底层内核再也不彻底靠CUDA写,用了一个叫TileLang的DSL。DeepSeek但愿底层算子开发不要彻底锁死于CUDA上,而是用更高一层的语言描写计较,再只管即便编译到差别硬件上,这个很是牛逼,可以年夜年夜降低迁徙成本。

3. V4专门弄了一个叫MegaMoE的交融内核,设计方针是削减专家并行中的通讯等候,今朝已经经于华为昇腾上跑通。

这三条放一路,标的目的就很是清晰了,V4是完彻底全的,为了国产卡而设计的模子。

这真的不是啥爱国故事,所有人都知道,将来算力有多缺,算力出产有多慢,可是Agent加快之下,Token带来的耗损有多可骇。

算力被洽商,所有人都没有措施,君不见GLM-5.1这么好的模子,有多受限在算力推理吗?

算力博弈,许多时辰,就是顶层博弈。

DeepSeek v4,就是算力博弈逼出来的实际。

将来一年,国产年夜模子跑国产卡这件事,觉得会逐渐成熟了。

然后多模态的事,我知道各人很体贴。

由于此刻,多模态险些是标配了,好比Opus 4.7年夜幅强化的就是多模态能力,K2.六、MiMo-V2.5-Pro也都标配了多模态,更别提GPT-5.5了。

由于没有多模态,你读不了图,你没有视觉能力,审美上也一定差一截,同时甚么Computer Use之类的Agent能力,更是想都别想。

可是很是很是惋惜的是,DeepSeek V4,不是多模态。

还有是一个纯文本模子,没有多模态能力。

一声浩叹,实在很早之前就于传V4有多模态了,我也知道他们内部必定做了多模态的事情,可是末了,还有是没有放出来,看来适配国产卡的压力,还有是太年夜太年夜了。

多模态,可能只能比及v4.5或者者v5.0了,但愿这两个版本,没有了适配国产卡的压力,不要再让咱们等一年了。

今朝V4 Pro我也接到Claude Code内里了。

咱们于本身紧锣密鼓的测试了3个小时以后,有了一些本身粗拙的结论。

我小我私家觉得,跟Claude Code的适配,是有一些问题的,我此刻不知道究竟是适配的问题,还有是模子的问题。

举个最简朴的例子,我的当地skill,是有一个直接受理我办事器的skill的。

我至今没有见到任何一个模子,于我说出明确带有办事器的词语的时辰,不去挪用我的办事器skill去办事器查询。

GLM-5.一、MiniMax M2.七、Kimi K2.六、MiMo-V2.5-Pro,没有一个有问题,可是,DeepSeek V4,出了问题。

我需要把Prompt说的云云明确才可以。

很是的希奇。

咱们小伙伴也是,以前他做了一个社群运营体系,已经经做完了,于桌面留了个PRD,用来测试的,但,理解力也有点问题,虽然是为了测试,于根目次举行启动的,但一般还有是会举行全局搜刮一下的,而不是直接拒绝。

然后开发这块,我本身以前测试Opus 4.7的Case扔给了他,这个需求实在就是给咱们开发一个雇用网站,要利用女神异闻录5的气势派头,同时还有要部署到我的办事器上,可是我的需求说的很是的乱,也会比力磨练模子需求的理解能力。

于给DeepSeek V4 Pro开发的时辰,速率很是的迟缓。

年夜概花了24分钟做完的。

UI实在还有好了,可是出了蛮年夜的问题,就是没有跟我举行任何简直认。

由于我的约束给的长短常多的,好比CLAUDE.md内里,还有有我的skill内里,最基本的一个问题,就是好比没有遵守skill的描写。

任何新项目,部署到办事器上,都是必然要跟用户确认域名是否OK的,可是没有做任何确认,直接本身选了careers.virxact.com干上去了,24分钟竣事以后,给了我一个域名,让我确认。

这个实在蛮希奇的,我的约束似乎许多也都掉效了。

而模子的写作能力上,反而是让我感觉比力开心的点。

比拟在其他模子,险些不说人话不看写作了,DeepSeek是为数未几的还有存眷这一块的。

*个是强行挪用我的skill,去写一篇关在Token涨价的文章。

花了年夜概8分钟,不知道开了几多个网页,然后写了一篇,于几层检测上,本身完成为了。

效果年夜概是如许的。

还有让他对于我昨天GPT-image-2的暗中丛林那篇举行了中段续写的测试。

总体效果达不到Opus 4.6那种润物细无声的级别,可是比Opus 4.7要好,假如你用修改度来区别,那年夜概Opus 4.6直出的我的修改度是30%,Opus 4.7我的修改度是60%,那DeepSeek V4 Pro的修改读年夜概于45%摆布。

而且由于上下文增长,于输出长文档上,效果会好的多的多。

对于DeepSeek V4的测试年夜概就是如许。

有好有坏。

我昨天于GPT-5.5的文章里批改过一次保举,早上我也写过MiMo-V2.5-Pro,说它是我此刻感觉搭配Claude Code的*模子之一。

此刻,我再更改一下保举:

1. 假如你更偏好海外模子,且愿意花20~200刀会员定阅费:

于内容创作(文章、筹谋案、剧本等)这类需要创意的场景上,我至今依然保举利用Claude Code + Claude Opus 4.6。

而于通用开发、数据阐发、文档处置惩罚等所有其他场景下,我更保举你用Codex + GPT-5.5。

2. 假如你更偏好海内模子:

于内容创作场景上,我保举你利用DeepSeek官网,没有须要用Claude Code。

而于其他所有场景下,我依然保举你利用Claude Code + GLM-5.1或者MiMo-V2.5-Pro的组合。

DeepSeek V4,身上违负的工具太多,承载的工具也太多。

各人给的指望也充足的年夜。

虽然很是坦诚的讲,此次的模子,并无年夜幅度的*及巨型的冷艳。

但,对于在模子的国产化、以致AI的国产化,都是浓墨重彩的一笔。

但愿这一次,完成为了所有的底层堆集,厚积薄发。

于V4.5或者者V5的时辰。

让世界,继承听到DeepSeek的声音。

【本文由投资界互助伙伴微信公家号:数字生命卡兹克授权发布,本平台仅提供信息存储办事。】若有任何疑难,请接洽(editor@zero2ipo.com.cn)投资界处置惩罚。

-金年金字招牌(jinnian)今年会今年会2024

集团下属网站

集团下属网站

公众号

扫一扫关注金年金字招牌(jinnian)今年会今年会2024

苏ICP备09099908号-4 版权所有:今年会今年会2024控股集团有限公司