一个本地的PDF处理工具,其界面为Web UI,支持Docker部署。
在文本输入的同时立即开始语音合成,无需等待整个文本输入完毕。
一款视频、音频和图像转换软件,基于FFmpeg和其他优秀工具设计,旨在尽可能方便和高效
由微软开发的一个开源项目,旨在向初学者介绍数据科学的基本知识和技能
个在安卓平台上运行的UiAutomator,它可以用于自动化测试和操作安卓设备
基于U-Net架构,并通过将扩散过程与传统的卷积神经网络相结合,提供了更好的图像分割结果
借助大语言模型(LLM)处理音频的工具
给出一段长视频,我们把它变成一个包含视觉+音频信息的文档。通过将这份文件发送给ChatGPT,我们就可以在视频中进行聊天了!
基于浏览器的前端Web界面,支持本地或远程AI模型,用于搭建辅助写作、类AI Dungeon游戏、聊天机器人。
允许开发者通过一个简单的API接口来访问超过100种不同的大语言模型。包括OpenAI、Anthropic、Mistral、LLama2、Anyscale、Google Gemini等。
一个本地的PDF处理工具,其界面为Web UI,支持Docker部署。