李沐团队Higgs Audio V2用1000万小时数据淬炼的语音大模型

7月24日发布在AI

消失许久的AI领域专家李沐近期重返B站，亲自演示了团队研发的Higgs Audio V2语音大模型，这个模型不仅能理解文本，还能生成逼真语音，实现国际化对话、语音与背景音乐同步生成等功能。

在演示的三人对话案例中——暴躁的怪物、喋喋不休的驴子和冷静的公主，每个角色的声音都带有独特情感纹理。这背后是模型的多说话人对话生成能力：它能模拟多人互动场景，自动匹配说话者的情绪和能量水平，让生成的对话像真人交流一样自然流畅。

长文本朗读时，模型能自动调整语速、停顿和语调，不用人工干预，让旁白更有生命力。这种能力在生成有声读物时很重要，能让听众获得更自然的听觉体验。

用户提供简短语音样本，就能实现零样本语音克隆，复制特定人物的声音特征。克隆的声音还能哼唱旋律，同步生成背景音乐，完成“写一首歌并唱出来”的创作流程。

模型还支持低延迟响应，能理解用户情绪并做出情感化表达，跳出机械式问答的局限。这种能力让虚拟主播、实时语音助手等场景的交互更接近人类。

Higgs Audio V2的出色表现，源于三项关键技术创新和庞大的数据积累。

团队开发了自动化标注系统，利用多个ASR模型、声音事件分类模型和内部音频理解模型，清洗并标注了1000万小时的音频数据，音频理解模型是在Higgs Audio v1 Understanding基础上微调得到的。

团队从头训练了统一的Higgs Audio Tokenizer，可捕获语义和声学特征，提出的DualFFN架构，增强了LLM对音频的建模能力，且计算开销较小。

在权威评测中，Higgs Audio V2表现突出。在EmergentTTS-Eval基准上，其情绪表达胜率超过GPT-4o-mini-tts 75.7%，问题处理胜率高55.7%；在Seed-TTS、ESD等传统测试中，也全面领先行业模型。

由于数据集中音乐数据覆盖范围有限，在音乐任务中落后于其他公司。但借助基础LLM的思维链（COT）能力，其在音乐任务上的性能得到显著提升。

Higgs Audio V2已在GitHub（ https://github.com/boson-ai/higgs-audio ）开源，等待全球开发者一同探索语音AI的未来。

buluozhi#outlook.com