聚焦真实商业场景的Agent Leaderboard通过系统性评估,揭示大语言模型在复杂工具调用场景中的实战能力,最新排名可通过 https://huggingface.co/spaces/galileo-ai/agent-leaderboard
实时查看。
1、模型筛选 覆盖12个闭源模型+5个开源模型,构建多元化评估矩阵
2、标准化配置 统一系统提示词
工具调用权限标准化
零温度设置确保评估一致性
3、数据精选策略 从四大标杆数据集中战略采样:
BFCL(教育/学术场景)
τ-bench(零售/航空场景)
xLAM(21领域跨场景)
ToolACE(390领域API交互)
4、TSQ评分系统
工具选择质量(Tool Selection Quality)指标:
TSQ = (工具选择准确率 + 参数填充准确率 + 结果生成质量)/3
工具调用三原则 1、上下文感知:动态调整工具使用策略
2、容错机制:建立工具失效应对方案
3、组合创新:探索多工具协同工作流
性能发现 闭源模型平均领先开源模型37.2%
数学场景工具选择准确率最高(82.3%)
航空订票场景错误率超40%(多步骤推理瓶颈)
数据集 | 领域覆盖 | 交互类型 |
---|---|---|
BFCL | 教育/学术/娱乐 | 单轮问答 |
τ-bench | 零售/航空 | 多轮对话 |
xLAM | 21个跨领域场景 | 动作序列生成 |
ToolACE | 390个API接口 | 实时API调用 |
评估流程代码示例:
# 初始化TSQ评估器
chainpoll_scorer = pq.CustomizedChainPollScorer(
scorer_name=pq.CustomizedScorerName.tool_selection_quality,
model_alias=pq.Models.gpt_4o
)
# 配置零温度LLM保证评估一致性
llm = llm_handler.get_llm(model, temperature=0.0, max_tokens=4000)
# 标准化系统提示词
system_msg = {
"role": "system",
"content": """请使用提供的工具解答问题。若无相关工具请回复"无法回答",
若信息不足请主动询问。支持多工具链式调用,但只需执行首个必要工具。"""
}
BFCL(伯克利AI研究院)
τ-bench(Sierra研究团队)
xLAM(Salesforce研究院)
ToolACE(跨领域API数据集)
引用格式:
@misc{agent-leaderboard,
author = {Pratik Bhavsar},
title = {Agent Leaderboard},
year = {2025},
publisher = {Galileo.ai},
howpublished = "\url{https://huggingface.co/spaces/galileo-ai/agent-leaderboard}"
}
当前榜单暂未公布具体模型排名数据,开发者可通过项目仓库中的test_r1.ipynb
进行自定义模型测试。
地址:https://github.com/rungalileo/agent-leaderboard