通过语音和人脸图像来生成逼真的嘴唇运动
一个统一可控的视觉生成模型
借助大语言模型(LLM)处理音频的工具
Mac 上的一个多模态 AI 助手,能支持语音和截图,借助 GPT-4V 的多模态能力,可以基于当前屏幕截图和指令可以回复问题。
将屏幕截图转换为清洁的HTML / Tailwind / JS代码
一个开源、可扩展的高性能聊天机器人框架,支持一键部署私有ChatGPT/LLM Web应用程序
一个基于深度学习的视频超分辨率(SR)和视频增强(VE)框架,由北京大学元培学院的研究团队开发。
一个统一可控的视觉生成模型