LangGraph

LangGraph 是一个低级编排框架,用于构建、管理和部署长时间运行的有状态代理,受到塑造代理未来的公司(包括 Klarna、Replit、Elastic 等)的信赖。

最近更新: 1个月前

LangChain

一个用于构建 LLM 驱动的应用程序的框架。

最近更新: 1个月前

DeepSeek-V3

DeepSeek-V3 是一个强大的专家混合 (MoE) 语言模型。新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。 https://api-docs.dee...

最近更新: 1个月前

Dify

Dify 是一个开源的 LLM 应用程序开发平台。Dify 的直观界面结合了 AI 工作流程、RAG 管道、代理功能、模型管理、可观测性功能等,让您可以快速从原型到生产。

最近更新: 1个月前

FunASR

FunASR 是一个基本的语音识别工具包,提供多种功能,包括语音识别 (ASR)、语音活动检测 (VAD)、标点符号恢复、语言模型、说话人验证、说话人分类和多说话者 ASR。

最近更新: 1个月前

Open WebUI

Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 AI 平台,旨在完全离线运行。 它支持各种 LLM 运行器,如 Ollama 和 OpenAI 兼容的 API,并内置了 RAG 推理引擎,使其成为强大的 AI 部署解决方案。

最近更新: 1个月前

Open WebUI Docs

欢迎使用 Open WebUI 的官方文档,这是一个自托管、注重隐私且可扩展的 AI 界面,适用于 LLM (如 Ollama) 和与 OpenAI 兼容的 API。 此站点使用 Docusaurus 构建,包括: 🔧 安装和设置指南(Docker,本地,手动) 🧩 插件和扩展文档 📚 AP...

最近更新: 1个月前

Muyan-TTS

Muyan-TTS 是一种可训练的 TTS 模型,可实现零样本 TTS 合成和高质量语音生成。 Muyan-TTS 支持数十分钟目标语音的说话人适应,使其针对个人声音进行了高度定制。

最近更新: 3个月前

CrewAI

CrewAI 是一个多智能体协调框架,使多个 AI agents 能够无缝协作,从而共同解决复杂任务。

最近更新: 3个月前

LLM_Voice_Flow

基于DeepSeek与RK3576的模块化离线智能语音交互系统。 本项目开发了一套全离线、模块化的智能语音交互系统,基于RK3576 NPU实现端到端智能语音交互流水线,集成流式ASR、DeepSeek大模型推理、TTS语音合成-双缓冲队列三大核心模块。系统采用松耦合架构,各模块通过标准化接口...

最近更新: 3个月前

Qwen2.5-Coder

Qwen2.5-Coder 是阿里云 Qwen 团队开发的大型语言模型系列 Qwen2.5 的代码版本。

最近更新: 3个月前

Qwen2.5-Omni

Qwen2.5-Omni 是一个端到端的多模态模型,专为全面的多模态感知而设计,可无缝处理各种输入,包括文本、图像、音频和视频,同时通过文本生成和自然语音合成提供实时流响应。

最近更新: 3个月前

Whisper

Whisper 是一种通用的语音识别模型。它基于各种音频的大型数据集进行训练,也是一种多任务模型,可以执行多语言语音识别、语音翻译和语言识别。

最近更新: 3个月前

Kimi-Audio

Kimi-Audio 是一个开源音频基础模型,在音频理解、生成和对话方面表现出色。此存储库包含 Kimi-Audio 的官方实现、模型和评估工具包。

最近更新: 3个月前

SenseVoice

SenseVoice 是一个语音基础模型,具有多种语音理解功能,包括自动语音识别 (ASR)、口语识别 (LID)、语音情感识别 (SER) 和音频事件检测 (AED)。

最近更新: 3个月前

CosyVoice

CosyVoice 2.0 发布!与 1.0 版本相比,新版本提供了更准确、更稳定、更快、更好的语音生成能力。

最近更新: 3个月前

Fish Speech

Fish Speech,由Fish Audio提供技术支持,提供业界领先的AI配音服务,集成声音克隆、文字转语音等核心功能。Fish Speech让AI配音更自然,30秒即可完成声音克隆,打造专属文字转语音声音。

最近更新: 3个月前

Step Video T2V

Step-Video-T2V 是一种最先进的 (SoTA) 文本到视频预训练模型,具有 300 亿个参数,能够生成高达 204 帧的视频。

最近更新: 3个月前

Step Audio

Step-Audio 是第一个用于智能语音交互的生产就绪型开源框架,它协调理解和生成,支持多语言对话(例如,中文、英文、日文)、情绪语气(例如,喜悦/悲伤)、地方方言(例如,粤语/四川话)、可调节的语速和韵律风格(例如,说唱)。

最近更新: 3个月前

Fairseq2

Fairseq2 是一个从头开始的项目,可以认为是原始Fairseq 的重启,以提供干净、模块化的 API。值得注意的是,它的设计理念与其前身不同,它从整体框架转变为可扩展、侵入性更小的架构,允许研究人员独立拥有他们的项目代码库。

最近更新: 3个月前

搜索帮助