EMO是由阿里巴巴通义实验室开发的音频驱动高表现力人像AI视频生成技术,最新升级版EMO2通过一张人物肖像图片和任意长度的音频,能够驱动人物进行说话、唱歌或手势舞,生成的表情和动作具有高度的感染力和专业水准。
在AI技术领域,通过音频驱动人物面部表情已实现,但在虚拟主播和数字人交互等新兴领域,如何通过音频自动生成自然流畅的动作和表情仍是技术焦点,以往的方法在手部动作生成上存在肢体错乱或动作幅度不足的问题,主要因为人类身体作为多关节复杂系统,难以实现复杂动作的驱动。
EMO2受机器人控制系统启发,将手视为日常生活中的“末端执行器”,与音频之间的关系显著,通过逆向运动学(IK)获取其他人体关节角度时,可能会出现奇异性,导致错误的运动规划结果。EMO2提出将人体结构知识融入像素生成,即“具有像素先验知识的IK”(Pixels Prior IK),通过音频生成手部动作,然后利用2D视频模型生成其他身体部位,实现自然高表现力的人物动作视频生成。
EMO2提出了一套两阶段的解决方案:第一阶段建立音频到手部动作的映射,生成高表现力和高一致性的手势动作;第二阶段使用基于diffusion UNet架构的视频生成模型合成视频帧,以第一阶段生成的动作表征作为引导,生成真实的面部表情和身体动作。
EMO2生成的动作具有更大运动范围和多样性,与音频的一致性更强。在人物视频生成方面,EMO2在手势动作的多样性和手部清晰度上具有显著优势。EMO2扩展了EMO模型,使其能够生成上半身动作,研究发现手部动作与音频信号最为相关。实验结果表明,EMO2能够生成比其他方法更加生动、富有表现力的人体视频,为音频驱动视频生成技术提供了新的思路。
屏幕分辨率调整工具 SwitchResX v4.14.1 for Mac 安装下载
Excel 2024制作三指标对比图:用组合图表同时呈现营收、毛利与毛利率
购买的苹果ID如何跳过绑定手机(不开启双重认证)
夏季空调使用指南:空调怎么用节能又舒服
微软 Windows 11 25H2 驱动优化
冲鸭加速器最新官方APK安装包下载
Word文档传给别人,如何保证字体不会改变?
解决 Win10 连接 Wifi 显示无 internet 访问权限的问题
免费开源虚拟机系统神器 PVE 9.0,一台电脑同时安装运行多个不同操作系统
小蜜蜂加速器,免费订阅,体验试用再上车,仅需5元/月
智谱GLM 4.5接入Claude Code 教程
谷歌Pmax广告怎么投