通过语音和人脸图像来生成逼真的嘴唇运动
一种分层自适应零样本语音风格转换模型
通过提炼二维扩散来学习有关节的三维动物,用于视频游戏等实时应用
专为稳定人物视频抠像设计
输入文本、视频、音频,生成带动作的虚拟角色。
1,100 多种语言推出语音转文本、文本转语音等功能,语音转文本的错误率只有 Whisper 的一半
一个由Dabble开发的开源软件包,它可以帮助用户构建虚拟的产品摄影工作室。
一种分层自适应零样本语音风格转换模型