首页财产ai正文 腾讯混元Hy3 preview发布并开源:混元重修后首个模子,Agent能力年夜幅晋升 4月23日腾讯混元Hy3 preview语言模子发布并开源,总参数295B,于多方面能力晋升显著,已经于腾讯多产物上线,推理效率提40%,成本降低。 2026-04-23 17:49 ·投资界综合
4 月 23 日,腾讯混元 Hy3 preview 语言模子发布并开源。这是一个快慢思索交融的混淆专家模子,总参数 295B,激活参数 21B,最 年夜撑持 256K 上下文长度。这是混元重修后练习的第 一个模子,也是混元迄今最智能的模子,于繁杂推理、指令遵照、上下文进修、代码、智能体等能力和推理机能上实现了年夜幅的晋升。
2026 年2月,腾讯混元重修了预练习及强化进修的基础举措措施,以和模子寻求实用性的三个原则:
一、能力系统化: 不推许“偏科”,由于纵然是代码智能体的单一运用,也触及推理、长文、指令、对于话、代码、东西等多种能力的深度协同。
二、评测真实性: 自动跳出易被“刷榜”的公然榜单,经由过程自建标题问题、最新测验、人工评测、产物众测等多种方式评估及改良模子的“真实战斗力”。
三、性价比寻求:实用性离不开贸易合理性,深度协同模子架谈判推理框架的设计,年夜幅降低使命成本,让智能用患上起、用患上好。
Hy3 preview可以视为混元快速摸索实用性年夜模子、解决真实世界问题的一个初步。
腾讯首席AI科学家姚顺雨暗示,Hy3 preview是混元年夜模子重修的第 一步。咱们但愿经由过程此次开源及发布,得到来自开源社区及用户的真实反馈,帮忙咱们晋升 Hy3 正式版的实用性。与此同时,咱们也于继承扩展预练习及强化进修的范围,晋升模子的智能上限,并经由过程与腾讯浩繁产物的深度Co-Design,连续晋升模子于真实场景中的综合体现,并最先摸索特点模子能力。
今朝,Hy3 preview 已经于腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ阅读器、腾讯文档、腾讯乐享等首发上线,微信公家号、及平精英、腾讯新闻、腾讯自选股、腾讯客服、微信念书等多个主线产物也于陆续上线。别的,Hy3 preview 撑持接入风行的开源智能体产物,如 OpenClaw、OpenCode、KiloCode等,并已经上架腾讯云年夜模子办事平台 TokenHub。
Hy3 preview 主打周全实用性,Agent能力年夜幅晋升
多个测评成果显示,Hy3 preview 模子能力周全晋升。
一、精彩的上下文进修及指令遵照能力
于各类真正的出产与糊口场景,理解混乱冗长的上下文并顺从繁杂多变的法则是模子的首要挑战。基在腾讯营业场景的灵感,腾讯混元提出了 CL-bench及 CL-bench-Life 来立异性地评估模子的上下文进修能力,并于 Hy3 preview 显著地晋升了模子上下文进修及指令遵照能力。

二、繁杂推理能力凸起,清华数学博士资历测验海内分数最高
繁杂推理能力是模子解决各类问题的基础。Hy3preview于FrontierScience-Olympiad、IMOAnswerBench等高难度理工科推理使命中体现凸起,并于最新的清华年夜学求真学堂数学博资考(26春) 及 天下中学生生物学联赛(CHSBO 2025) 中取患上优秀成就,揭示了可泛化的强推理能力。

三、代码与智能体晋升最为显著,揭示出高性价比
代码及智能体是 Hy3 preview 晋升最为显著的标的目的。患上益在预练习和强化进修框架的重修及强化进修使命范围的晋升,腾讯混元以较快的速率于 SWE-Bench Verified、Terminal-Bench 2.0 等主流代码智能体基准以和 BrowseComp、WideSearch等主流搜刮智能体基准中取患了有竞争力的成果。

于数字世界中,代码存眷的是模子于开发情况中的履行能力,搜刮则聚焦在开放信息空间中的检索、筛选与整合能力,二者配合决议了模子于繁杂智能体场景(例如 OpenClaw)中是否真正具有可用性。Hy3 preview 于 ClawEval及 WildClawBench等评测中体现凸起,注解咱们的智能体能力正于稳步走向周全与实用。

除了了公然榜单,腾讯混元还有进一步构建了多个内部的评测集,对于模子于真实开发场景中的体现举行评估。成果注解,不管是于后端工程使命集 Hy-Backend,切近真实用户开发交互的 Hy-Vibe Bench,还有是高难度软件工程开发使命集 Hy-SWE Max 上,Hy3preview 均表现出了强竞争力。

比力各个开源模子的巨细与智能体综合体现,Hy3 preview揭示出高性价比。

腾讯焦点营业已经周全接入,多主线AI 产物验证收益较着
正式上线以前,Hy3 preview于腾讯重要AI 营业举行了产物测试,得到较着正收益。
于元宝端,混元与元宝举行了深度Co-Design。一方面,针对于性地晋升了模子于用意理解精准度、文本创作质量、深度搜刮等硬核指标上的体现;另外一方面,对于文风、文笔、情商、内容构造及内容专业度长进行了邃密化调优。模子与产物的深度协同,为用户带来了更智能且更具“活人感”的交互体验。
于ima常识库问答及通用问答两个场景下,测试成果显示,Hy3 preview 处置惩罚长文的能力精彩,尤其是检索类使命,于回覆信息的正确性、笼罩度及周全性上体现较好。
于CodeBuddy、WorkBuddy产物上,Hy3 preview 首 token 延迟降低 54%、端到端时长降低 47%、乐成率晋升至 99.99%+。现实用户情况中,Hy3preview 已经不变驱动最长 495 步的繁杂 Agent 事情流,笼罩文档处置惩罚、数据阐发、常识检索、MCP 东西链编排等多样化办公场景。
于公家号AI两全及AI客服的场景专项评测中,Hy3 preview揭示出比拟Hy2 更周全的能力进级。新模子于用户用意理解、繁杂上下文承接及常识信息构造方面体现更成熟,面临恍惚发问、短句追问及多轮对于话时,可以或许更正确地掌握用户诉求,并输出更清楚、更不变的答复。联合常识库、用户影象与上下文天生回覆时更贴合AI两全及AI客服的脚色,过分脑补、主不雅代入及情绪化表达显著削减,使总体交互体验更切近“可托、天然、高效”的答复方针。
于及平精英AINPC场景评测中,及平精英团队第 一时间于Hy3 preview上线后基在AINPC场景中完成接入并开展评测,总体体现使人印象深刻。于游戏局外的人设饰演场景中,Hy3Preview不仅可以或许精准理解脚色设定,还有能针对于开放性问题输出高度联系关系、富有增量价值的内容,带来了越发真实、天然、沉浸的对于话体验。而于游戏局内的繁杂对于疆场景中,模子答复节拍切近真实玩家谈天体验,揭示出优异的不变性与精彩的拟人化饰演能力,总体效果体现亮眼。
于腾讯文档AIPPT场景,较上一版本(Hy2)取患了显著前进:天生乐成率晋升20%,评测患上分晋升10%,同时天生耗时缩短20%。总体而言,新模子于评测场景中体现优秀,于模版选择,色采匹配,天生纲领,增补内容多个阶段,均表现出优异的体现,无幻觉,契合主题,视觉效果好。
于QQAI助手小Q产物评测中,较上一版本,于长文本首字节时延、总体相应速率与流式输出效率方面显著优化;焦点能力上,数学推理体现晋升尤为较着,多场景指令遵照与泛化能力进一步加强;于东西挪用推理和多轮指代消解方面体现更不变高效,于OpenClaw官方PinchBenchQQ智能体场景测试中取患上凸起效果,综合体验实现较着跃升。
推理效率晋升40%,划一成本智能密度最 优
患上益在模子及推理框架上的深度协同,以和于推理框架、算子机能、量化算法等全方面优化,总体推理效率晋升40%,Hy3 preview的成真相比上一代模子年夜幅降落。
于腾讯云年夜模子办事平台 TokenHub上,Hy3 preview 输入价格最 低1.2元/百万tokens,输入掷中缓存价格0.4元/百万tokens,输出价格最 低4元/百万tokens。同时,腾讯云结合混元推出定制的 Hy3 preview Token Plan 套餐,小我私家版订价最 低28元/月,为Agent开发及打造“龙虾”运用的提供更具性价比选择。










