LangGraph 是一个低级编排框架,用于构建、管理和部署长时间运行的有状态代理,受到塑造代理未来的公司(包括 Klarna、Replit、Elastic 等)的信赖。
最近更新: 1个月前DeepSeek-V3 是一个强大的专家混合 (MoE) 语言模型。新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。 https://api-docs.dee...
最近更新: 1个月前Dify 是一个开源的 LLM 应用程序开发平台。Dify 的直观界面结合了 AI 工作流程、RAG 管道、代理功能、模型管理、可观测性功能等,让您可以快速从原型到生产。
最近更新: 1个月前FunASR 是一个基本的语音识别工具包,提供多种功能,包括语音识别 (ASR)、语音活动检测 (VAD)、标点符号恢复、语言模型、说话人验证、说话人分类和多说话者 ASR。
最近更新: 1个月前Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 AI 平台,旨在完全离线运行。 它支持各种 LLM 运行器,如 Ollama 和 OpenAI 兼容的 API,并内置了 RAG 推理引擎,使其成为强大的 AI 部署解决方案。
最近更新: 1个月前欢迎使用 Open WebUI 的官方文档,这是一个自托管、注重隐私且可扩展的 AI 界面,适用于 LLM (如 Ollama) 和与 OpenAI 兼容的 API。 此站点使用 Docusaurus 构建,包括: 🔧 安装和设置指南(Docker,本地,手动) 🧩 插件和扩展文档 📚 AP...
最近更新: 1个月前Muyan-TTS 是一种可训练的 TTS 模型,可实现零样本 TTS 合成和高质量语音生成。 Muyan-TTS 支持数十分钟目标语音的说话人适应,使其针对个人声音进行了高度定制。
最近更新: 3个月前基于DeepSeek与RK3576的模块化离线智能语音交互系统。 本项目开发了一套全离线、模块化的智能语音交互系统,基于RK3576 NPU实现端到端智能语音交互流水线,集成流式ASR、DeepSeek大模型推理、TTS语音合成-双缓冲队列三大核心模块。系统采用松耦合架构,各模块通过标准化接口...
最近更新: 3个月前Qwen2.5-Omni 是一个端到端的多模态模型,专为全面的多模态感知而设计,可无缝处理各种输入,包括文本、图像、音频和视频,同时通过文本生成和自然语音合成提供实时流响应。
最近更新: 3个月前SenseVoice 是一个语音基础模型,具有多种语音理解功能,包括自动语音识别 (ASR)、口语识别 (LID)、语音情感识别 (SER) 和音频事件检测 (AED)。
最近更新: 3个月前Fish Speech,由Fish Audio提供技术支持,提供业界领先的AI配音服务,集成声音克隆、文字转语音等核心功能。Fish Speech让AI配音更自然,30秒即可完成声音克隆,打造专属文字转语音声音。
最近更新: 3个月前Step-Audio 是第一个用于智能语音交互的生产就绪型开源框架,它协调理解和生成,支持多语言对话(例如,中文、英文、日文)、情绪语气(例如,喜悦/悲伤)、地方方言(例如,粤语/四川话)、可调节的语速和韵律风格(例如,说唱)。
最近更新: 3个月前