$昆仑万维(SZ300418)$ 一、GAIA榜单的技术评估框架
GAIA是由Meta和HuggingFace联合推出的智能体评测基准,包含450个需多步骤工具调用和自主推理的真实世界问题,分为三个难度层级:
Level 1:需1种工具且步骤≤5(如简单信息检索);
Level 2:需5-10步跨工具协作(如数据整合分析);
Level 3:开放式复杂任务(如全流程项目规划)。
人类在此基准的平均得分率为92%,而早期GPT-4仅15%。这体现了GAIA对智能体综合问题解决能力的高要求。
二、评分与排名对比
| 智能体 | GAIA总分 | Level 1得分 | Level 2得分 | Level 3得分 | 成本对比(基准:OpenAI) | |-----------------------|----------|-------------|-------------|-------------|--------------------------| | 天工超级智能体 | 82.42 | 88.5 | 79.3 | 72.0 | 40% | | OpenAI Deep Research | 67.36 | 72.1 | 65.8 | 64.2 | 100% | | Manus | 40.82 | 52.4 | 45.6 | 72.0 | 未披露 |
关键结论:
天工总分领先:其82.42分超越OpenAI的67.36分和Manus的40.82分,尤其在Level 1和Level 2上优势显著;
成本效率突出:天工的Deep Research模型成本仅为OpenAI的40%;
Manus的“偏科”表现:虽在Level 3与天工持平,但基础任务得分较低,反映其通用性不足。
三、天工智能体的技术突破
1. 架构设计:垂直专业化系统
5个专家智能体:分别专注文档、PPT、表格、网页、播客生成,覆盖Office核心场景;
1个通用智能体:集成多模态生成(如图片、音乐、视频),支持创意内容生产。
2. 核心能力:Deep Research技术
深度搜索与推理:通过强化学习扩展搜索广度,提升信息源质量(如学术论文、行业报告);
数据可视化:生成的文档/PPT内置条形图、雷达图等动态图表,支持在线编辑与格式导出;
结果可溯源:所有数据标注来源链接,增强内容可信度。
3. 场景适配案例
行业研究报告:输入“分析2025年新能源车电池技术趋势”,可输出含30+数据图表及参考文献的百页报告;
营销方案生成:基于企业上传的销售数据,自动生成含竞品对比、用户画像的可编辑PPT。
四、行业影响与竞争格局
天工的崛起标志着中国在Agent赛道实现技术反超:
颠覆传统软件:直接对标Microsoft Office,将内容生成时间从小时级缩短至分钟级;
生态构建:通过开放API吸引开发者,已接入数十个MCP(多模态内容生产工具);
竞争壁垒:垂直场景的深度优化(如表格智能体的统计分析功能)形成差异化优势。
相比之下,OpenAI Deep Research仍依赖通用模型+插件生态,而Manus因功能泛化导致专业性不足,两者在办公场景的落地效果受限。
总结
天工超级智能体通过“垂直场景深度优化+低成本技术方案”的组合,不仅登顶GAIA榜单,更重新定义了AI生产力工具的标准。其突破印证了专业化智能体在特定场景的竞争力,也为行业提供了从“通用大模型”向“领域专家”演进的新范