BrowseComp 是一项基准测试,用于衡量 AI 代理在寻找难以获取信息方面的表现。
BrowseComp 基准测试涵盖了 1266 个复杂的问题,每个问题的答案都简短,每个问题理论上只有一个正确答案。设计这些问题时,考虑到了它们的难以从网上找到但易于核实的特性,为了保证挑战性,在创建问题时会检验现有模型是否能解决,答案是否不在搜索引擎首页,人类是否难以在短时间内找到。
BrowseComp 测试针对 AI 代理执行有益浏览操作的能力展开评估,涵盖互联网内容事实推理、浏览的持久性与深度,以及搜索时的创造性思维。
针对 BrowseComp 的模型评估结果如下:
GPT-4o 和 GPT-4.5 的准确率近乎为零,对AI来说有挑战难度。
启用浏览功能的 GPT-4o 准确率稍有上升。
OpenAI o1 尽管没有浏览功能,但有强大的推理能力,o1超过了有浏览功能的 GPT-4o。
Deep Research 的表现明显优于其他所有模型,解决了近半数问题,Deep Research 曾专门Comp 任务进行训练。
ChatGPT 的记忆功能能参考你过往所有对话,可以提供更贴合个人语言习惯的回复,对写作、获取建议、学习等方面都很有帮助。