阿里深夜干了件大事,成本暴降90%! 热点聚焦
智东西
作者 | 程茜
【资料图】
编辑 | 心缘
智东西9月12日报道,今天凌晨,阿里通义实验室正式发布下一代基础模型架构Qwen3-Next,并训练了基于该架构的Qwen3-Next-80B-A3B-Base模型,该模型拥有800亿个参数仅激活30亿个参数。
Base模型在Qwen3预训练数据的子集15T tokens上进行,仅需Qwen3-32B 9.3%的GPU计算资源,针对超过32k的上下文,推理吞吐量可达到Qwen3-32B的10倍以上。
同时,基于Base模型,阿里开源了Qwen3-Next-80B-A3B的指令模型(Instruct)和思维模型(Thinking),模型支持原生262144个token上下文长度,可扩展至1010000个token。
其中,Qwen3-Next-80B-A3B-Instruct仅支持指令(非思考)模式,其输出中不生成块;Qwen3-Next-80B-A3B-Thinking仅支持思考模式,为了强制模型进行思考,默认聊天模板自动包含。
指令模型的性能表现与参数规模更大的Qwen3-235B-A22B-Instruct-2507相当,思维模型优于谷歌闭源模型Gemini-2.5-Flash-Thinking。
▲指令模型测试基准
▲思维模型测试基准
在架构升级方面,相比阿里4月底的Qwen3 MoE模型,新增了混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化,以及提升推理效率的多Token预测(MTP)机制等。
新模型已在魔搭社区和HuggingFace开源,开发者们也可通过Qwen Chat免费体验或阿里云百炼、NVIDIA API Catalog体验Qwen3-Next。
开发者在Qwen的X评论区称赞其新增的多Token预测(MTP)机制,称这是最令人印象深刻的部分。
阿里云百炼:https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen3?modelGroup=qwen3
一、指令模型接近235B旗舰模型,推理模型超Gemini-2.5
Qwen3-Next模型支持原生262144个token上下文长度,可扩展至1010000个token。
总的来看在性能方面,指令模型接近阿里参数规模235B的旗舰模型,思维模型表现优于Gemini-2.5-Flash-Thinking。
其基座模型为Qwen3-Next-80B-A3B-Base,仅使用1/10的Non-Embedding激活参数,在大多数基准测试中,性能表现与Qwen3-32B-Base相近。但其总训练成本为Qwen3-32B-Base的10%不到,并且对于超过32K上下文的推理吞吐是Qwen3-32B的10倍以上。
得益于其新的混合模型架构,Qwen3-Next在推理效率方面,与Qwen3-32B相比,Qwen3-Next-80B-A3B在预填充(prefill)阶段,在4k tokens的上下文长度下,吞吐量接近前者的7倍,当上下文长度超过32k时,吞吐提升达到10倍以上。
在解码(decode)阶段,该模型在4k上下文下实现近4倍的吞吐提升,在超过32k的长上下文场景中能保持10倍以上的吞吐优势。
具体来看,其指令模型表现优于Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,并取得了几乎与参数规模更大的Qwen3-235B-A22B-Instruct-2507模型相近的结果。
只有在面向大模型的综合性评测基准、高难度数学推理基准AIME25中,指令模型的表现略逊色于Qwen3-235B-A22B-Instruct-2507,在编程、复杂问答与长对话的评测中表现更好。
Qwen3-Next-80B-A3B-Instruct在RULER上所有长度的表现明显优于层数相同、注意力层数更多的Qwen3-30B-A3B-Instruct-2507,甚至在256k范围内都超过了层数更多的Qwen3-235B-A22B-Instruct-2507。
思维模型的表现优于预训练成本更高的Qwen3-30B-A3B-Thinking-2507、Qwen3-32B-thinking,全面超过了谷歌的闭源模型Gemini-2.5-Flash-Thinking,并在部分指标上接近阿里最新旗舰模型Qwen3-235B-A22B-Thinking-2507。
二、混合注意力、MoE、稳定优化、多Token预测加持
研究人员在博客中提到,Qwen3-Next是针对大模型在上下文长度和总参数两方面不断扩展(Scaling)的未来趋势而设计。
Qwen3-Next采用的是Qwen3 36T预训练语料的一个均匀采样子集,包含15T tokens。其训练所消耗的GPU Hours不到Qwen3-30A-3B的80%;与Qwen3-32B相比,仅需9.3%的GPU计算资源,即可实现更优的模型性能。
这一模型结构相较其4月底推出的Qwen3的MoE模型,新增了多种新技术并进行了核心改进,包括混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化,以及提升推理效率的多Token预测(MTP)机制等。
混合注意力机制:用Gated DeltaNet(线性注意力)和Gated Attention(门控注意力)的组合替换标准注意力,实现超长上下文长度的有效上下文建模。
研究人员发现Gated DeltaNet相比常用的滑动窗口注意力(Sliding Window Attention)和Mamba2有更强的上下文学习能力, 并在3:1的混合比例下,即75%层使用Gated DeltaNet,25%层保留标准注意力,能一致超过超越单一架构,实现性能与效率的双重优化。
同时在保留的标准注意力中,研究人员进一步引入多项增强设计,包括沿用先前工作的输出门控机制,缓解注意力中的低秩问题,将单个注意力头维度从128扩展至256,仅对注意力头前25%的位置维度添加旋转位置编码,提高长度外推效果。
高稀疏度混合专家(MoE):在MoE层中实现极低的激活比率,大幅减少每个token的FLOPs,同时保留模型容量。研究人员的实验表明,在使用全局负载均衡后,当激活专家固定时,持续增加专家总参数可带来训练loss的稳定下降。
此前,Qwen3系列的MoE专家激活比约为1比16,Qwen3-Next实现了1比50的激活比。
稳定性优化:包括零中心化和权重衰减layernorm等技术,以及其他增强稳定性以实现鲁棒的预训练和后训练。研究人员发现,注意力输出门控机制能消除注意力池与极大激活等现象,保证模型各部分的数值稳定。
多Token预测(MTP):提升预训练模型性能并加速推理,Qwen3-Next特别优化了MTP多步推理性能,通过训练推理一致的多步训练,进一步提高了实用场景下的Speculative Decoding接受率。
结语:3B激活参数对标旗舰模型!阿里凭架构创新为模型降本提速Qwen3-Next的突破点在于同时实现了大规模参数容量、低激活开销、长上下文处理与并行推理加速。此外结合注意力机制、MoE设计等方面的多项架构创新,阿里通义此次实现仅激活3B参数模型就能对标规模更大模型的性能,使得模型在性能与效率之间找到更佳平衡点,同时为降低模型训练、推理成本提供了有效路径。 研究人员在博客提到,未来他们将持续优化这一架构并开发Qwen3.5。与此同时近期阿里通义已经推出数个不同领域的模型,如超万亿参数的Qwen3-Max-Preview、文生图及编辑模型Qwen-Image-edit、语音识别模型Qwen3-ASR-Flash等。随着其多领域模型的持续落地与开源,阿里通义在开源社区的技术影响力正逐步增强。
责任编辑:孙知兵
免责声明:本文仅代表作者个人观点,与太平洋财富网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有问题,请联系我们!
- 国家级生猪大数据中心:9月12日全国生猪均价为13.72元/公斤 市场止跌企稳2025-09-12
- 青山纸业:关注到市场将公司归类入光模块概念 子公司净利润占比极小-重点聚焦2025-09-12
- 南京证券:拟于9月19日进行现金红利发放,每股派发0.05元2025-09-12
- 消息称有TOP5厂商正跟进6.5X英寸Air超轻薄旗舰手机,预计明年上半年登场|焦点热议2025-09-12
- 中国老龄事业发展基金会圆满举办 “2026老年春节联欢晚会”2025-09-12
- 罗永浩炮轰西贝预制菜!特级大厨教你三招辨真伪 热头条2025-09-12
- 上海徐汇为孵化器项目搭建专场路演平台 即时2025-09-12
- 信息:电投产融:公司将积极关注核能领域的战略布局和技术发展2025-09-12
- 9月12日钛白粉产业链情报 热门2025-09-12
- 阿里深夜干了件大事,成本暴降90%! 热点聚焦2025-09-12
- 片仔癀资产经营公司注册资本增至20.5亿元 天天资讯2025-09-12
- 今日热文:中超控股(002471.SZ):与合肥市智能机器人研究院签署《战略合作协议》2025-09-12
- 升班马两连胜!官方:克雷莫纳主帅尼古拉当选意甲8月最佳教练-每日信息2025-09-12
- 中国电建(601669.SH):电建新能源上交所主板IPO申请获上交所受理2025-09-12
- 亚马逊强制儿童玩具类检测认证合规,跨境卖家如何选择检测认证合规服务商?2025-09-12
- 亚信科技联合清华AIR等发布全球首部 AI-RAN商业展望白皮书2025-09-12
- 创业板指自4月低点大涨64%,仅两成个股跑赢,10倍股仅此一只 今日聚焦2025-09-12
- 因经济补偿金纠纷,邱顺林起诉立霸股份-微头条2025-09-12
- 中国水电基础局有限公司与大禹节水集团签署战略合作框架协议2025-09-12
- 绿的谐波(688017.SH):拟使用不超1亿元进行现金管理2025-09-12
- 百济神州:3932人购62962股美存托股份,涉资1344.95万美元-新资讯2025-09-12
- 罗永浩悬赏10万|每日速读2025-09-12
- 航天电子:筹划资产置换2025-09-12
- 邮储银行衡水市分行举办“喜迎国庆 翰墨传情”书画艺术茶话会2025-09-12
- 白酒中报|动销放缓酒企存货逆势增长 今世缘、水井坊、古井贡酒存货增长最快 每日消息2025-09-12
- 金融助力企业协同创新发展大会在首钢园举办2025-09-12
- 金九银十装修季告别选择困难,大金中央空气系统一站式解决方案2025-09-12
- 聚焦 “三化” 趋势,兔宝宝携阻燃板材亮相山西,赋能行业高质量发展2025-09-12
- 祝贺!福州运动员黄梦恺获男花团体冠军-今日讯2025-09-12
- 蓝佛安:“十四五”以来跨省异地就医直接结算惠及5.6亿人次 每日播报2025-09-12
精彩推荐
- 青山纸业:关注到市场将公司归类入光模块概念 子公司净利润占比极小-重点聚焦
- 消息称有TOP5厂商正跟进6.5X英寸Air超轻薄旗舰手机,预计明年上半年登场|焦点热议
- 罗永浩炮轰西贝预制菜!特级大厨教你三招辨真伪 热头条
- 9月12日钛白粉产业链情报 热门
- 今日热文:中超控股(002471.SZ):与合肥市智能机器人研究院签署《战略合作协议》
- 绿的谐波(688017.SH):拟使用不超1亿元进行现金管理
- 百济神州:3932人购62962股美存托股份,涉资1344.95万美元-新资讯
- 罗永浩悬赏10万|每日速读
- 蓝佛安:“十四五”以来跨省异地就医直接结算惠及5.6亿人次 每日播报
- 博威合金(601137.SH):不直接供货给美国甲骨文公司
- 球场、商场的双向奔赴!解锁赛事经济下的“江苏玩法”
- 观点:固镇县:电力科普进校园 童心点亮安全灯
- 焦点速读:精进电动(688280.SH):是奇瑞混动车型的产品平台供货商之一
- 紫牛问政·回音壁|新能源汽车充电桩是不是想装就能装?
- 药捷安康-B:盘中一度涨95%,上市不到3月股价飙升超15倍_当前看点
阅读排行
- 国家级生猪大数据中心:9月12日全国生猪均价为13.72元/公斤 市场止跌企稳
- 南京证券:拟于9月19日进行现金红利发放,每股派发0.05元
- 中国老龄事业发展基金会圆满举办 “2026老年春节联欢晚会”
- 上海徐汇为孵化器项目搭建专场路演平台 即时
- 阿里深夜干了件大事,成本暴降90%! 热点聚焦
- 片仔癀资产经营公司注册资本增至20.5亿元 天天资讯
- 中国电建(601669.SH):电建新能源上交所主板IPO申请获上交所受理
- 亚马逊强制儿童玩具类检测认证合规,跨境卖家如何选择检测认证合规服务商?
- 亚信科技联合清华AIR等发布全球首部 AI-RAN商业展望白皮书
- 因经济补偿金纠纷,邱顺林起诉立霸股份-微头条