一种专门为实时图像生成服务设计的扩散模型管道,显著地提升了实时图像生成的性能。
支持文字生成视频和图片生成视频。
一款适用于搭建内部培训平台的开源系统,旨在为企业/机构打造自己品牌的内部培训平台
一个开源工具包,可实现语音、声音和歌唱功能
一个使用类型来构建自然语言界面的库。
一个强大的深度学习文本到语音工具包,具有高度的可定制性和多语言支持。
微软发布了DragNUWA 1.5版本,用户可以在图像上画出对应方向的箭头标记。在通过图像生成视频之前,这些标记可以用来指导镜头的运动方向。
由 Tohrusky 开发的一款图像超分辨率技术,它可以以更高的分辨率和质量重构图像。
一个开源的深度伪造工具包,用于生成逼真的深度伪造视频和图像。
一个语音转换工具,可以将文字转换为语音,并用OSC消息发送到VRChat上的头像显示。
一种专门为实时图像生成服务设计的扩散模型管道,显著地提升了实时图像生成的性能。