又一国产万亿参数模型开源！养“龙虾”实力超GPT-5.4

发布时间：2026-05-14来源：智东西

智东西（公众号：zhidxcom）

作者 | 王涵

编辑 | 心缘

智东西5月15日报道，今天，蚂蚁百灵

旗舰级思考模型Ring-2.6-1T

开源

，该模型于5月9日正式发布。Ring-2.6-1T引入了可调节的

Reasoning Effort机制

，支持

high与xhigh

两种推理强度，开发者可以根据任务特性动态分配推理资源。

其中，high模式面向

高频Agent工作流

获得更高效率，适合

多轮对话、工具协作与任务拆解

；xhigh模式则面向

数学竞赛、科研分析

等高难任务。

又一国产万亿参数模型开源！养“龙虾”实力超GPT-5.4

基准测试方面，high模式下，其在评估OpenClaw框架适配能力的PinchBench得分

87.60

，

高于GPT-5.4 xHigh和Gemini-3.1-Pro h

ig

h

；在考察长程任务自主推进能力的Tau2-Bench Telecom测试中达到

95.32分

的成绩，Agent场景执行能力较强。

xhigh模式下，Ring-2.6-1T在数学推理能力测试AIME 26中得分

95.83

，

与DeepSeek V4 Pro Max持平

；在研究生级别科学推理能力测试GPQA Diamond中，该模型得到

88.27分

，表现还略逊于Kimi-K2.6 Thinking等同类模型。

又一国产万亿参数模型开源！养“龙虾”实力超GPT-5.4

在训练层面，Ring-2.6-1T采用

异步（Async）强化学习训练架构

，将策略采样与参数更新解耦为独立流水线，解决了传统同步训练中GPU资源等待、训练吞吐不足的问题，并支持更长周期的持续训练。在此基础上，百灵将此前在Ring-1T中验证过的

“棒冰算法”

引入异步RL训练，解决训练不稳定问题。

目前，该模型权重文件同步上线Hugging Face、ModelScope平台，并开放体验通道。

开源地址：

Hugging Face：https://huggingface.co/inclusionAI/Ring-2.6-1T

ModelScope：https://modelscope.cn/models/inclusionAI/Ring-2.6-1T

体验地址：

Ling Studio：https://ling.tbox.cn/chat

一、能开发Web工具、做财务分析，还能开发3D游戏

在OpenRouter限时一周免费的API体验期间，已有不少开发者分享了对Ring-2.6-1T的真实调用反馈。

开发者关注到该模型在真实任务中的规划与执行能力：从会议纪要整理、内容计划生成，到React管理后台重构、复杂状态处理、代码生成和Three.js交互页面开发，Ring-2.6-1T能够主动拆解任务、规划步骤，并根据上下文持续推进。

在5月9日模型发布之时，智东西第一时间对其进行了体验：

蚂蚁万亿参数思考模型来了！实测AIME真题难不倒，会写爽文、规划出行

今天，百灵团队放出了

7个

落地实操案例：

在Pi Coding Agent中，Ring-2.6-1T可以搜索互联网上的Web设计风格，并生成大量符合不同风格的交互式介绍。

（视频）

在OpenCode中，用户可以使用Ring-2.6-1T，在真实项目仓库中定位并修复一系列样式适配相关的bug，并产出相关文档。

（视频）

此外，在Pi Coding Agent，用户还可以让Ring-2.6-1T检索典型的3D框架和游戏场景，并生成这些场景和游戏。

（视频）

在Agentic方面，Ring-2.6-1T可以生成用于提升其他任务效能的Web工具，并使用Agent Skill优化这类工具的表现。

（视频）

在Kilo Code中，用户还可以用Ring-2.6-1T 编写脚本，综合运营macos的OCR能力、脚本执行和模型推理能力，全自动分析家庭财务账单，从发票图片到可交互分析演示。

（视频）

在深度研究场景中，Ring-2.6-1T可以通过Agent Skill编写深度研究Agentic Workflow。模型可以严格遵循通过Skill文档定义的Workflow，研究上百个来源，综述成为一份风险调研和投资相关的建议书。

（视频）

此外，Ring-2.6-1T还能自行开发个性化学习助手，检索和规划学习内容、知识图结构，并根据用户反馈自行调整介绍难度和方式。

（视频）

二、异步训练+棒冰算法，提高GPU利用率

传统同步RL训练中，策略生成（rollout）与梯度更新紧耦合，容易导致以下问题：

1、GPU等待：GPU资源利用率低，大量算力浪费在等待同步上；

2、训练吞吐不足：训练周期被拉长，迭代速度受限；

3、长周期训练不稳定：长周期训练中容易出现策略崩溃或奖励信号退化。

Ring-2.6-1T采用异步（Async）强化学习训练架构，将策略采样与参数更新解耦为独立流水线。由此，采样与更新并行执行，GPU利用率与训练效率均有所提升。并且，该训练架构适配大规模、长时间的持续训练，可以避免同步瓶颈导致的训练中断。

在此基础上，百灵团队还将推理大模型Ring-1T中的棒冰算法应用到异步RL训练中，解决训练不稳定问题。

结语：用更少token完成任务，百灵追求真实生产环境使用

近一个月内，百灵迭代发布并开源了多款模型，覆盖Ling语言模型和Ring推理模型。

此前，Ling-2.6-flash的匿名测试版本“Elephant Alpha”上线OpenRouter后，连续多日位列Trending 榜首，日均tokens调用量达到100B级别。

虽然模型尺寸不同、能力侧重也不同，其系列模型都在强调用更少的token完成高质量的任务输出。相较于追求更大的参数规模或更高的单点分数，百灵更强调“真实生产环境使用”。

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。