AI智源FlagEval全球评测榜单
2024年12月19日,智源研究院发布了全球100余个开源和商业闭源模型的评测结果,涵盖语言、视觉语言、文生图、文生视频、语音语言等多个领域,本次评测在任务解决能力上进行了扩展和细化,新增了数据处理、高级编程、工具调用等任务,首次引入金融量化交易场景的应用能力评估和基于模型辩论的对比评估方式,深入分析模型的逻辑推理、观点理解和语言表达能力。 大模型发展趋势 2024年下半年,大模型发展更注重综合能力提升与实际应用,多模态模型发展迅速,涌现出新的厂商与模型,语言模型发展相对放缓,开源生态中,除了持续贡献的