# Linly-Talker
**Repository Path**: orchidcoder/Linly-Talker
## Basic Information
- **Project Name**: Linly-Talker
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: MIT
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-04-13
- **Last Updated**: 2025-04-13
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
# 数字人智能对话系统 - Linly-Talker — “数字人交互,与虚拟的自己互动”
Linly-Talker WebUI
[](https://github.com/Kedreamix/Linly-Talker)

[](https://colab.research.google.com/github/Kedreamix/Linly-Talker/blob/main/colab_webui.ipynb)
[](https://github.com/Kedreamix/Linly-Talker/blob/main/LICENSE)
[](https://huggingface.co/Kedreamix/Linly-Talker)
[**English**](./README.md) | [**中文简体**](./README_zh.md)
**2023.12 更新** 📆
**用户可以上传任意图片进行对话**
**2024.01 更新** 📆
- **令人兴奋的消息!我现在已经将强大的GeminiPro和Qwen大模型融入到我们的对话场景中。用户现在可以在对话中上传任何图片,为我们的互动增添了全新的层面。**
- **更新了FastAPI的部署调用方法。**
- **更新了微软TTS的高级设置选项,增加声音种类的多样性,以及加入视频字幕加强可视化。**
- **更新了GPT多轮对话系统,使得对话有上下文联系,提高数字人的交互性和真实感。**
**2024.02 更新** 📆
- **更新了Gradio的版本为最新版本4.16.0,使得界面拥有更多的功能,比如可以摄像头拍摄图片构建数字人等。**
- **更新了ASR和THG,其中ASR加入了阿里的FunASR,具体更快的速度;THG部分加入了Wav2Lip模型,ER-NeRF在准备中(Comming Soon)。**
- **加入了语音克隆方法GPT-SoVITS模型,能够通过微调一分钟对应人的语料进行克隆,效果还是相当不错的,值得推荐。**
- **集成一个WebUI界面,能够更好的运行Linly-Talker。**
**2024.04 更新** 📆
- **更新了除 Edge TTS的 Paddle TTS的离线方式。**
- **更新了ER-NeRF作为Avatar生成的选择之一。**
- **更新了app_talk.py,在不基于对话场景可自由上传语音和图片视频生成。**
**2024.05 更新** 📆
- **更新零基础小白部署 AutoDL 教程,并且更新了codewithgpu的镜像,可以一键进行体验和学习。**
- **更新了WebUI.py,Linly-Talker WebUI支持多模块、多模型和多选项**
**2024.06 更新** 📆
- **更新MuseTalk加入Linly-Talker之中,并且更新了WebUI中,能够基本实现实时对话。**
- **改进的WebUI在默认设置下不加载LLM模型,以减少显存使用,并且可以直接通过问题回复完成口播功能。精细化后的WebUI包含以下三个主要功能:个性化角色生成、数字人多轮智能对话以及MuseTalk实时对话。这些改进不仅减少了先前的显存冗余,还增加了更多提示,以帮助用户更轻松地使用。**
**2024.08 更新** 📆
- **更新CosyVoice,具备优质的文本转语音(TTS)功能和语音克隆能力;同时更新了Wav2Lipv2,以提升整体效果**
**2024.09 更新** 📆
- **新增 Linly-Talker API 文档,提供详细的接口说明,帮助用户通过 API 使用 Linly-Talker 的功能。**
**2024.12 更新** 📆
- **简单修复了Edge-TTS的bug,解决了MuseTalk的一些问题,计划加入fishTTS以获得更稳定的TTS效果,并引入先进的数字人技术。**
**2025.02 更新** 📆
- **添加了更快的语音识别模型OmniSenseVoice。**
---
|
PROMPT TEXT |
PROMPT SPEECH |
TARGET TEXT |
RESULT |
预训练音色 |
中文女 音色('中文女', '中文男', '日语男', '粤语女', '英文女', '英文男', '韩语女') |
— |
你好,我是通义生成式语音大模型,请问有什么可以帮您的吗? |
[sft.webm](https://github.com/user-attachments/assets/a9f9c8c4-7137-4845-9adb-a93ac304131e)
|
3s语言复刻 |
希望你以后能够做的比我还好呦。 |
[zero_shot_prompt.webm](https://github.com/user-attachments/assets/1ef09db6-42e5-42d2-acc2-d44e70b147f9)
|
收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。 |
[zero_shot.webm](https://github.com/user-attachments/assets/ba46c58f-2e16-4440-b920-51ec288f09e6)
|
跨语种复刻 |
在那之后,完全收购那家公司,因此保持管理层的一致性,利益与即将加入家族的资产保持一致。这就是我们有时不买下全部的原因。 |
[cross_lingual_prompt.webm](https://github.com/user-attachments/assets/378ae5e6-b52a-47b4-b0db-d84d1edd6e56)
|
< |en|>And then later on, fully acquiring that company. So keeping management in line, interest in line with the asset that's coming into the family is a reason why sometimes we don't buy the whole thing.
|
[cross_lingual.webm](https://github.com/user-attachments/assets/b0162fc8-5738-4642-9fdd-b388a4965546)
|
### Coming Soon
欢迎大家提出建议,激励我不断更新模型,丰富Linly-Talker的功能。
## THG - Avatar
详细有关于数字人生成的**使用介绍**与**代码实现**可见 [THG - 构建智能数字人](./TFG/README.md)
### SadTalker
数字人生成可使用SadTalker(CVPR 2023),详情介绍见 [https://sadtalker.github.io](https://sadtalker.github.io)
在使用前先下载SadTalker模型:
```bash
bash scripts/sadtalker_download_models.sh
```
[Baidu (百度云盘)](https://pan.baidu.com/s/1eF13O-8wyw4B3MtesctQyg?pwd=linl) (Password: `linl`)
[Quark(夸克网盘)](https://pan.quark.cn/s/f48f5e35796b)
> 如果百度网盘下载,记住是放在checkpoints文件夹下,百度网盘下载的默认命名为sadtalker,实际应该重命名为checkpoints
### Wav2Lip
数字人生成还可使用Wav2Lip(ACM 2020),详情介绍见 [https://github.com/Rudrabha/Wav2Lip](https://github.com/Rudrabha/Wav2Lip)
在使用前先下载Wav2Lip模型:
| Model | Description | Link to the model |
| ---------------------------- | ----------------------------------------------------- | ------------------------------------------------------------ |
| Wav2Lip | Highly accurate lip-sync | [Link](https://iiitaphyd-my.sharepoint.com/:u:/g/personal/radrabha_m_research_iiit_ac_in/Eb3LEzbfuKlJiR600lQWRxgBIY27JZg80f7V9jtMfbNDaQ?e=TBFBVW) |
| Wav2Lip + GAN | Slightly inferior lip-sync, but better visual quality | [Link](https://iiitaphyd-my.sharepoint.com/:u:/g/personal/radrabha_m_research_iiit_ac_in/EdjI7bZlgApMqsVoEUUXpLsBxqXbn5z8VTmoxp55YNDcIA?e=n9ljGW) |
| Expert Discriminator | Weights of the expert discriminator | [Link](https://iiitaphyd-my.sharepoint.com/:u:/g/personal/radrabha_m_research_iiit_ac_in/EQRvmiZg-HRAjvI6zqN9eTEBP74KefynCwPWVmF57l-AYA?e=ZRPHKP) |
| Visual Quality Discriminator | Weights of the visual disc trained in a GAN setup | [Link](https://iiitaphyd-my.sharepoint.com/:u:/g/personal/radrabha_m_research_iiit_ac_in/EQVqH88dTm1HjlK11eNba5gBbn15WMS0B0EZbDBttqrqkg?e=ic0ljo) |
### Wav2Lipv2
借鉴于 https://github.com/primepake/wav2lip_288x288 仓库,使用新训练的288模型,能够得到更高质量的结果
同时使用yolo进行检测面部,整体的效果都会更好一点,具体可以在Linly-Talker中进行比较和测试,模型已更新,效果比较如下
| Wav2Lip | Wav2Lipv2 |
| ------------------------------------------------------------ | ------------------------------------------------------------ |
|