# rtt_multi_modal

**Repository Path**: midf_yang/rtt_multi_modal

## Basic Information

- **Project Name**: rtt_multi_modal
- **Description**: 2025嵌入式大赛作品：基于RT-Thread的多模态无线人机交互头戴系统
- **Primary Language**: C/C++
- **License**: GPL-3.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-07-09
- **Last Updated**: 2025-07-09

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# rtt_multi_modal

#### 介绍
2025嵌入式大赛作品：基于RT-Thread的多模态无线人机交互头戴系统

本系统的外形与佩戴方式类似VR眼镜，基于RTT标准版（ART-Pi）与RTT Smart版（K230开发板）实现，通过一系列操作可控制鼠标与键盘。主要的功能有：

1.鼠标眼球追踪

2.鼠标食指追踪

3.本地语音识别

4.头部姿态识别

5.手势识别

![输入图片说明](https://foruda.gitee.com/images/1752011731899599229/b7aeb4bd_13756214.png "微信图片_20250709055513.png")

本作品硬件平台为ART-Pi和K230，团队自主设计设备外壳。在ART-Pi上运行RT-Thread标准版，本地部署轻量级边缘AI模型，使用多种滤波算法如高通滤波、低通滤波、滑动平均滤波等，实现语音识别、头部姿态识别、九轴姿态解算、瞳孔坐标变换、星闪无线传输等功能。在K230上运行RTT Smart，基于OpenCV库的椭圆拟合和霍夫变换实现鼠标眼球追踪，并使用Yolov5检测手掌，采用resnet50网络结构识别手掌关键点，实现手势识别和鼠标食指跟踪。
本作品通过将RTT标准版与RTT Smart版结合，两个操作系统各司其职，充分发挥各自性能。具有实时性强、智能化程度高、操作简单、功能多样、可靠性高、响应速度快的特点。
本作品有两种模式：

1.眼控模式
用户先在电脑上插入接收器。设备启动时默认进入眼控模式，在此模式下，需要进行3秒左右的校准。用户需要在这3秒内直视前方。校准完毕后，系统蜂鸣器会发出提示音。此时电脑上的鼠标会随着目光的注视方向移动。用户说出“点击”“上”“下”“打开”“关闭”“切换”即可执行左键单击、滚轮上滑、滚轮下滑、左键双击、关闭窗口、切换模式的操作，当系统识别到语音指令时，LED灯与蜂鸣器会有相应的反馈。

2.手势模式
用户在眼控模式下说出“切换”或者按下设备上的按键后，系统进入手势模式。本系统一共可以识别8种手势，手势的设计尽量贴近用户日常使用鼠标的习惯，分别如下图所示。在手势模式下，设备还会开启头部动作识别功能！当用户做出“摇头”的动作，电脑会弹出当前已经打开的所有窗口供用户选择，再次“摇头”可以选择需要打开的窗口，做出“点头”的动作，电脑将进入所选择的窗口。
当用户在屏幕前做出“滚轮”手势时，设备进入滚轮模式，此时用户的手掌上下移动就可以控制鼠标滚轮上下移动，设备在滚轮模式下不再识别其他手势。当用户再次做出“滚轮”手势时，设备退出滚轮模式，此时可以识别其他手势。
当用户第一次做出“最小化窗口”手势时，当前窗口会最小化（而不是关闭），正如同“关闭窗口”手势的区别，保留了一根大拇指。当用户再次做出“最小化窗口”手势时，会把上次最小化的窗口恢复。
当用户处于“无”手势时，鼠标跟踪食指移动。
当用户做出“切换模式”手势时，设备会切换至眼控模式。