FunASR是一个基础语音识别工具包,提供多种功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便捷的脚本和教程,支持预训练好的模型的推理与微调
支持通过5秒音频克隆、1分钟音频克隆,也支持通过完整训练来克隆
在此次Qwen1.5版本中,我们开源了包括0.5B、1.8B、4B、7B、14B和72B在内的6个不同规模的Base和Chat模型,并一如既往地放出了各规模对应的量化模型
将屏幕截图转换为清洁的HTML / Tailwind / JS代码
专为稳定人物视频抠像设计
一个免费开源的AI表情生成器...
一种分层自适应零样本语音风格转换模型
chatgpt_academic 的功能非常强大,能够一键完成各类复杂任务,包括一键润色论文、一键代码解释、自动生成总结汇报等等
一键免费部署私人 ChatGPT+Midjourney 网页应用 支持原ChatGPT-Next-Web所有功能 还额外支持AI绘图、图片放大、识图、 混图、垫图等等功能
一个用于图像和视频修复的应用程序,它使用ESRGAN模型进行训练,该模型使用合成数据进行图像和视频的恢复
FunASR是一个基础语音识别工具包,提供多种功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便捷的脚本和教程,支持预训练好的模型的推理与微调