在开源社区中,AI技术的创新层出不穷,以下是五个令人瞩目的开源项目,它们在聊天机器人、视频生成、语音动画、语音编辑和搜索引擎等领域各显其能。
1. chatgpt-on-wechat
简介:chatgpt-on-wechat 是一款多功能聊天机器人,支持多平台和多种AI模型,能够处理文本、语音和图片,并且可以自定义企业智能客服。
特征:
- 多端部署:具备多种可选的部署方式,且功能齐全
- 基础对话:在私聊和群聊中实现消息的智能回复,支持多轮会话的上下文记忆,涵盖 GPT-3.5、GPT-4、Claude-3、文心一言、通义千问、ChatGLM-4 等。
- 语音能力:能够识别语音消息,并通过文字或语音进行回复,支持 Azure、Baidu、Google、OpenAI(Whisper/TTS)等语音模型。
- 图像能力:支持图片生成、图片识别及图生图(如照片修复),可选用 Dall-E-3、Stable Diffusion、Replicate、Midjourney、CogView-3、Vision 模型。
- 丰富插件:支持个性化的插件拓展,如多角色切换、文字冒险、敏感词过滤、聊天记录总结、文档总结与对话、联网搜索等插件。
- 知识库:通过上传知识库文件定制专属机器人,可作为数字分身、智能客服、私域助手,基于 LinkAI 实现。
项目地址:https://github.com/zhayujie/chatgpt-on-wechat
Star数:26.3k
2. FIFO-Diffusion
简介:FIFO-Diffusion 是一款可以生成无限长连续视频的AI视频生成项目,采用无需训练的预训练扩散模型推理技术。
特征:
- 通过迭代进行对角去噪处理,无需训练即可生成无限长的视频。
- 前向参考机制使帧间去噪效果更佳,引入潜在分区和前瞻去噪以减少训练-推理差距。
- 支持生成高质量、长时间的视频,在多种文本到视频生成基线模型上展示了其有效性。
- 在 TextVQA、DocVQA 等基准测试中表现优异,超过一些非开源模型。
项目地址:https://github.com/jjihwan/FIFO-Diffusion_public
Star数:146
3. AniTalker
简介:AniTalker 是一款通过单张头像生成语音动画的AI开源项目,使用身份解耦的面部动作编码技术,实现生动的说话面部动画。
特征:
- 实现动漫人物、古人、老照片、蒙娜丽莎等头像人物开口说话。
- 可生成一系列生动的表情包。
项目地址:https://github.com/X-LANCE/AniTalker
Star数:989
4. VoiceCraft
简介:VoiceCraft 是一款开源的零样本语音编辑和文本转语音工具,在自然数据上的语音编辑和零样本文本转语音方面实现了最先进的性能。
特征:
- 语音编辑与生成:可以将语音转换成文字编辑后再转回语音,保持说话人的声音。
- 语音克隆:仅需3秒即可克隆其他声音。
- 可作为独立脚本部署至其他应用中。
项目地址:https://github.com/jasonppy/VoiceCraft
Star数:6.9k
5. FarFalle
简介:FarFalle 是一款开源的AI搜索引擎项目,支持本地或云端LLM自托管,类似 Perplexity AI。
特征:
- 使用多个搜索提供商进行搜索(Tavily、Searxng)。
- 使用云模型回答问题(OpenAI/gpt4-o、OpenAI/gpt3.5-turbo、Groq/Llama3)。
- 使用本地模型(Llama3、Mistral、Gemma、Phi3)回答问题。
项目地址:https://github.com/rashadphz/farfalle
Star数:1.3k
体验Demo:FarFalle Demo
通过探索这些项目,你可以体验到AI技术在不同领域的强大功能,并借助它们开发出更多创新应用。无论是聊天机器人、视频生成、语音动画,还是语音编辑和智能搜索,每个项目都展示了AI的广阔前景。
发表评论 取消回复