2024年12月19日,智源研究院发布了全球100余个开源和商业闭源模型的评测结果,涵盖语言、视觉语言、文生图、文生视频、语音语言等多个领域,本次评测在任务解决能力上进行了扩展和细化,新增了数据处理、高级编程、工具调用等任务,首次引入金融量化交易场景的应用能力评估和基于模型辩论的对比评估方式,深入分析模型的逻辑推理、观点理解和语言表达能力。
2024年下半年,大模型发展更注重综合能力提升与实际应用,多模态模型发展迅速,涌现出新的厂商与模型,语言模型发展相对放缓,开源生态中,除了持续贡献的海内外机构,还出现了新的开源贡献者。
在中文场景的开放式问答或生成任务中,模型能力趋于稳定,但在复杂场景任务中,国内头部语言模型与国际一流水平仍有差距。
主观评测:字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位列前两位,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022紧随其后。
客观评测:OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest领先,阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四。
开源模型架构趋同,评测结果显示,OpenAI GPT-4o-2024-11-20与字节跳动Doubao-Pro-Vision-32k-241028领先。
参评模型已具备中文文字生成能力,腾讯Hunyuan Image位列第一,字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三。
画质、动态性和镜头语言进一步提升,快手可灵1.5(高品质)、字节跳动即梦P2.0 pro、爱诗科技PixVerse V3位列前三。
得益于文本大模型的进步,语音语言模型能力显著提升,阿里巴巴Qwen2-Audio位居第一,香港中文大学&微软WavLLM、清华大学&字节跳动Salmon紧随其后。
智源研究院联合海淀区教师进修学校新编K12全学段、多学科试卷,模型综合得分较半年前提升12.86%,在理科试题上仍存在“文强理弱”的偏科现象。
FlagEval大模型覆盖国内外约50款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义评测,用户对模型响应时间和输出内容的结构化、标准化格式有更高要求。
FlagEval Debate平台对模型的逻辑推理、观点理解和语言表达能力进行深入评估,大模型普遍缺乏辩论框架意识,存在“幻觉问题”,论据经不起推敲,Anthropic Claude-3-5-sonnet-20241022、零一万物Yi-Lighting、OpenAI o1-preview-2024-09-12位列前三。
智源研究院研究了模型在金融量化交易领域的应用能力,大模型已具备生成有回撤收益的策略代码的能力,头部模型能力接近初级量化交易员水平,深度求索Deepseek-chat、OpenAI GPT-4o-2024-08-06、Google Gemini-1.5-pro-latest位列前三。