消失许久的AI领域专家李沐近期重返B站,亲自演示了团队研发的Higgs Audio V2语音大模型,这个模型不仅能理解文本,还能生成逼真语音,实现国际化对话、语音与背景音乐同步生成等功能。

在演示的三人对话案例中——暴躁的怪物、喋喋不休的驴子和冷静的公主,每个角色的声音都带有独特情感纹理。这背后是模型的多说话人对话生成能力:它能模拟多人互动场景,自动匹配说话者的情绪和能量水平,让生成的对话像真人交流一样自然流畅。

长文本朗读时,模型能自动调整语速、停顿和语调,不用人工干预,让旁白更有生命力。这种能力在生成有声读物时很重要,能让听众获得更自然的听觉体验。

用户提供简短语音样本,就能实现零样本语音克隆,复制特定人物的声音特征。克隆的声音还能哼唱旋律,同步生成背景音乐,完成“写一首歌并唱出来”的创作流程。

模型还支持低延迟响应,能理解用户情绪并做出情感化表达,跳出机械式问答的局限。这种能力让虚拟主播、实时语音助手等场景的交互更接近人类。

Higgs Audio V2的出色表现,源于三项关键技术创新和庞大的数据积累。

团队开发了自动化标注系统,利用多个ASR模型、声音事件分类模型和内部音频理解模型,清洗并标注了1000万小时的音频数据,音频理解模型是在Higgs Audio v1 Understanding基础上微调得到的。

团队从头训练了统一的Higgs Audio Tokenizer,可捕获语义和声学特征,提出的DualFFN架构,增强了LLM对音频的建模能力,且计算开销较小。

在权威评测中,Higgs Audio V2表现突出。在EmergentTTS-Eval基准上,其情绪表达胜率超过GPT-4o-mini-tts 75.7%,问题处理胜率高55.7%;在Seed-TTS、ESD等传统测试中,也全面领先行业模型。

由于数据集中音乐数据覆盖范围有限,在音乐任务中落后于其他公司。但借助基础LLM的思维链(COT)能力,其在音乐任务上的性能得到显著提升。

Higgs Audio V2已在GitHub( https://github.com/boson-ai/higgs-audio )开源,等待全球开发者一同探索语音AI的未来。