百度搭子DuMate一天连登PinchBench与DeepResearch双榜首 成全球最能打的龙虾
荆楚网(湖北日报网)讯(通讯员 杜轩)5月8日凌晨,百度百度搭子DuMate登顶智能体评测基准PinchBench榜首,搭D打并在前5位中占据3席,连登龙虾央视三台新闻网超越Anthropic和OpenAI拿下全球龙虾执行争霸赛冠军。双榜首成在另外一项DeepResearch深度研究榜单中,全球DuMate同样位列第一。百度
PinchBench是搭D打OpenClaw赛道最能体现Agent真实工作能力的评测基准,重点考察Agent在23个真实工作场景下147个任务的连登龙虾多步推理、工具调用和任务闭环能力,双榜首成并从成功率、全球速度、百度央视三台新闻网成本三个维度综合排名。搭D打榜单显示,连登龙虾DuMate以93.3%和93.2%的双榜首成总成绩包揽前两名。作为对照,全球Anthropic和OpenAI的同款模型场景下的成绩分别为89.0%和91.6%。这意味着,同一模型在DuMate框架中,展现出更强的执行力。

百度搭子DuMate登顶智能体评测基准PinchBench榜首。通讯员供图
超越原生表现的技术基础,是DuMate的端云协同Harness架构。该系统在任务到达时进行意图识别和敏感度判断,隐私相关操作留在本地执行,复杂推理任务上云完成,无需用户手动切换。同时,系统对每次执行所需的上下文做按需组装——根据任务语义和用户历史行为,预判并注入必要的背景信息,减少冗余干扰。Harness与Skills还基于历史执行轨迹持续迭代,使得不同底层模型都能在接近其能力上限的状态下稳定运行。
DeepResearch Bench是当前对深度研究型Agent最全面的评测基准,从洞察深度、内容准确性、可读性等维度考察Agent处理复杂研究任务的综合能力。DuMate以58.03的综合分位列第一,支撑这一成绩的是DuMate自研Skills体系中的Deep Search与Deep Research双引擎——前者负责跨平台语义检索与高价值信息定位,后者在此基础上叠加多轮推理与因果分析,将碎片信息提炼为结构化研究成果。

百度搭子DuMate登顶智能体评测基准PinchBench榜首。通讯员供图
自2026年3月上线以来,DuMate保持一天一版的更新节奏,已通过信通院两项安全测评且均获最高等级。
分享到
0个赞- 精彩渔获
-
前11个月民企享受新增减税降费政策占比超七成 -
“绿”潮涌动 能源低碳转型释放发展活力 -
「新潮香港 玩出C位」第二期「出片C位」上线! -
中国正能量|凝聚奋进力量,澎湃网络空间光与暖 -
我国新能源营运汽车达164万辆 -
40名中国石化加能站志愿者成为“长江江豚宣讲员” -
视频丨重建后 西藏定日县孩子们的寒假生活是这样→ -
港澳委员献策武汉,助力“五个中心”建设 -
国家数据局发布平台企业典型投资案例 -
大冶市中医医院骨伤科绿色通道获省级认可 -
镜观世界|在韩国感受“中国风” -
“三笔账”算出乡村幸福生活——钟祥市丰乐镇杨集社区发展见闻 -
全省博物馆假期接待观众147万人次 -
国家外汇管理局将有序扩大跨境贸易高水平开放试点 -
黄石累计整合资金约1亿元 为困境儿童撑起“保护伞” -
2025年十大语文差错发布! -
房地产税收新政策实施首月新增减免税116.9亿元 -
代表委员共议“十五五”发展路线图 武汉竞速“3万亿之城” -
万千候鸟迁徙而来,冬日洞庭湖化身候鸟乐园 -
视频丨重建后 西藏定日县孩子们的寒假生活是这样→ -
徐良巡演南昌站收官!匠心镌刻顶级视听,定格万众闪耀的青春篇章 -
荆门市石化第一小学“大思政课”成为学生的“良师益友” -
新疆是个好地方丨阿勒泰市:当古老毛皮滑雪板与冰雪热潮撞个满怀 -
我国水利建设完成投资连续4年超万亿元 -
农发行2024年投放超千亿元贷款支持水利建设 -
中国人寿的2025答卷:以保障之名,守护烟火人间的岁岁年年 -
三峡机场完成首票整机进口货运保障业务 -
为“情绪”买单成新年消费新趋势 -
朱百元:超越血缘的30载“祖孙情” -
港澳委员献策武汉,助力“五个中心”建设

我国新能源营运汽车达164万辆
上海实践|用需求撬动产业,上海eVTOL正加速“起飞”
又一创新药纳入医保!甲状腺眼病患者减负超60%
China's technological growth driving development in Global South, says African media analyst
国开行去年发放基础设施贷款1.53万亿元
抗议持续!国际社会强烈谴责美对委军事打击行径