聚焦真实商业场景的Agent Leaderboard通过系统性评估,揭示大语言模型在复杂工具调用场景中的实战能力,最新排名可通过 https://huggingface.co/spaces/galileo-ai/agent-leaderboard 实时查看。

评估体系四重奏

1、模型筛选 覆盖12个闭源模型+5个开源模型,构建多元化评估矩阵

2、标准化配置 统一系统提示词

工具调用权限标准化

零温度设置确保评估一致性

3、数据精选策略 从四大标杆数据集中战略采样:

BFCL(教育/学术场景)

τ-bench(零售/航空场景)

xLAM(21领域跨场景)

ToolACE(390领域API交互)

4、TSQ评分系统 工具选择质量(Tool Selection Quality)指标: TSQ = (工具选择准确率 + 参数填充准确率 + 结果生成质量)/3

工具调用三原则 1、上下文感知:动态调整工具使用策略

2、容错机制:建立工具失效应对方案

3、组合创新:探索多工具协同工作流

性能发现 闭源模型平均领先开源模型37.2%

数学场景工具选择准确率最高(82.3%)

航空订票场景错误率超40%(多步骤推理瓶颈)

数据集全景图

数据集 领域覆盖 交互类型
BFCL 教育/学术/娱乐 单轮问答
τ-bench 零售/航空 多轮对话
xLAM 21个跨领域场景 动作序列生成
ToolACE 390个API接口 实时API调用

技术实现解析

评估流程代码示例

# 初始化TSQ评估器
chainpoll_scorer = pq.CustomizedChainPollScorer(
    scorer_name=pq.CustomizedScorerName.tool_selection_quality,
    model_alias=pq.Models.gpt_4o
)

# 配置零温度LLM保证评估一致性
llm = llm_handler.get_llm(model, temperature=0.0, max_tokens=4000)

# 标准化系统提示词
system_msg = {
    "role": "system",
    "content": """请使用提供的工具解答问题。若无相关工具请回复"无法回答",
    若信息不足请主动询问。支持多工具链式调用,但只需执行首个必要工具。"""
}

本榜单的建立得益于四大标杆数据集:

BFCL(伯克利AI研究院)

τ-bench(Sierra研究团队)

xLAM(Salesforce研究院)

ToolACE(跨领域API数据集)

引用格式:

@misc{agent-leaderboard,
  author = {Pratik Bhavsar},
  title = {Agent Leaderboard},
  year = {2025},
  publisher = {Galileo.ai},
  howpublished = "\url{https://huggingface.co/spaces/galileo-ai/agent-leaderboard}"
}

当前榜单暂未公布具体模型排名数据,开发者可通过项目仓库中的test_r1.ipynb进行自定义模型测试。

地址:https://github.com/rungalileo/agent-leaderboard