消失许久的AI领域专家李沐近期重返B站,亲自演示了团队研发的Higgs Audio V2语音大模型,这个模型不仅能理解文本,还能生成逼真语音,实现国际化对话、语音与背景音乐同步生成等功能。
在演示的三人对话案例中——暴躁的怪物、喋喋不休的驴子和冷静的公主,每个角色的声音都带有独特情感纹理。这背后是模型的多说话人对话生成能力:它能模拟多人互动场景,自动匹配说话者的情绪和能量水平,让生成的对话像真人交流一样自然流畅。
长文本朗读时,模型能自动调整语速、停顿和语调,不用人工干预,让旁白更有生命力。这种能力在生成有声读物时很重要,能让听众获得更自然的听觉体验。
用户提供简短语音样本,就能实现零样本语音克隆,复制特定人物的声音特征。克隆的声音还能哼唱旋律,同步生成背景音乐,完成“写一首歌并唱出来”的创作流程。
模型还支持低延迟响应,能理解用户情绪并做出情感化表达,跳出机械式问答的局限。这种能力让虚拟主播、实时语音助手等场景的交互更接近人类。
Higgs Audio V2的出色表现,源于三项关键技术创新和庞大的数据积累。
团队开发了自动化标注系统,利用多个ASR模型、声音事件分类模型和内部音频理解模型,清洗并标注了1000万小时的音频数据,音频理解模型是在Higgs Audio v1 Understanding基础上微调得到的。
团队从头训练了统一的Higgs Audio Tokenizer,可捕获语义和声学特征,提出的DualFFN架构,增强了LLM对音频的建模能力,且计算开销较小。
在权威评测中,Higgs Audio V2表现突出。在EmergentTTS-Eval基准上,其情绪表达胜率超过GPT-4o-mini-tts 75.7%,问题处理胜率高55.7%;在Seed-TTS、ESD等传统测试中,也全面领先行业模型。
由于数据集中音乐数据覆盖范围有限,在音乐任务中落后于其他公司。但借助基础LLM的思维链(COT)能力,其在音乐任务上的性能得到显著提升。
Higgs Audio V2已在GitHub( https://github.com/boson-ai/higgs-audio )开源,等待全球开发者一同探索语音AI的未来。
Excel 2024制作三指标对比图:用组合图表同时呈现营收、毛利与毛利率
RAW转换器 Capture One Studo v16.6.2.8 中文版 for Mac 下载和安装
饮食习惯如何改变你的肠道菌群
华硕天选Air 2025 ×《时光代理人》联名礼盒款
用Excel 2024制作半圆环饼图
美剧《驯荒记 American Primeval》全6集迅雷
睡眠呼吸暂停口服药物即将面世
未在手机官方应用市场登记的Android应用被拦截阻止安装的几个解决方法
王安宇 、王玉雯主演爱情电视剧《值得爱》全26集BT迅雷下载
中国人工智能学会主办的2025第十四届中国智能产业大会与吴文俊人工智能创新大会将在江苏常州举办
OCRBench v2 2025 年 9 月最新榜单
AutoCAD局部图纸如何快速存为单独文件