阿里巴巴近日正式开源其深度研究智能体模型——通义DeepResearch,该模型在多个国际权威评测中取得SOTA(State-of-the-art)成绩,性能超越OpenAI Deep Research、DeepSeek-V3.1及Claude-4-Sonnet等基于旗舰大模型的智能体,成为当前开源社区中表现最优的Agent模型之一。
通义DeepResearch在Humanity's Last Exam(HLE)、BrowseComp-zh、GAIA、xbench-deepsearch、WebWalkerQA及Frames等评测中均表现突出,尤其以仅3B激活参数量实现强劲性能,显示出优异的效率与泛化能力。
传统深度研究方法通常采用“单窗口、线性累加”的信息处理机制,在长周期、高复杂性任务中容易遭遇“认知空间窒息”与噪声污染问题,导致推理性能显著下降。为应对这一挑战,通义团队构建了完整的合成数据驱动训练链路:以Qwen3-30B-A3B为基座模型,结合真实与虚拟环境中的强化学习验证模块,并引入高效异步强化学习算法与自动化数据策展流程,大幅提升模型迭代速度和泛化性能。
在推理机制上,团队提出两种运行模式:ReAct模式用于检验模型基础能力,而自研的IterResearch-Heavy模式则通过test-time scaling策略充分释放模型潜能,确保即使在长程复杂任务中仍可保持高质量推理。
目前,通义DeepResearch的模型权重、训练框架及实现方案已在GitHub、Hugging Face和魔搭社区全面开放,供研究者和开发者自由下载与使用。
今年以来,阿里已陆续开源包括WebWalker、WebDancer与WebSailor在内的多款智能体模型,均在开源社区中获得积极反响并取得SOTA成绩,持续推动Agent技术领域的开放创新与实用化进展。
声明:登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。
如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容,本网站对此声明具有最终解释权。
- 从签约ESG看前行者的电竞野心:不止是外设,更是“情绪伙伴”
- 开放媒体联盟宣布AV2编码标准将于2025年末发布 大幅提升流媒体与AR/VR体验
- 【游·见】专访锋游科技:以权谋为线,以资源为局,编织一张真实可演的江湖经营网
- 江松科技IPO背后:科技创新与绿色发展的资本故事
- Cloudflare成功抵御史上最强DDoS攻击 峰值高达22.2Tbps
- 微软正式推出生产级AI推理平台Windows ML 简化本地设备模型部署
- Adjust与Sensor Tower联合发布《2025年日本移动应用趋势报告》
- NVIDIA移除RTX显卡AI功能宣传 或为品牌战略调整
- 亚马逊云科技宣布推出Qwen3与DeepSeek-V3.1模型的完全托管服务
- PICO × 英特尔× 央美共探 AI 艺术新生态:技术重塑创作、教育与产业未来