# rtt_multi_modal **Repository Path**: midf_yang/rtt_multi_modal ## Basic Information - **Project Name**: rtt_multi_modal - **Description**: 2025嵌入式大赛作品:基于RT-Thread的多模态无线人机交互头戴系统 - **Primary Language**: C/C++ - **License**: GPL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-07-09 - **Last Updated**: 2025-07-09 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # rtt_multi_modal #### 介绍 2025嵌入式大赛作品:基于RT-Thread的多模态无线人机交互头戴系统 本系统的外形与佩戴方式类似VR眼镜,基于RTT标准版(ART-Pi)与RTT Smart版(K230开发板)实现,通过一系列操作可控制鼠标与键盘。主要的功能有: 1.鼠标眼球追踪 2.鼠标食指追踪 3.本地语音识别 4.头部姿态识别 5.手势识别 ![输入图片说明](https://foruda.gitee.com/images/1752011731899599229/b7aeb4bd_13756214.png "微信图片_20250709055513.png") 本作品硬件平台为ART-Pi和K230,团队自主设计设备外壳。在ART-Pi上运行RT-Thread标准版,本地部署轻量级边缘AI模型,使用多种滤波算法如高通滤波、低通滤波、滑动平均滤波等,实现语音识别、头部姿态识别、九轴姿态解算、瞳孔坐标变换、星闪无线传输等功能。在K230上运行RTT Smart,基于OpenCV库的椭圆拟合和霍夫变换实现鼠标眼球追踪,并使用Yolov5检测手掌,采用resnet50网络结构识别手掌关键点,实现手势识别和鼠标食指跟踪。 本作品通过将RTT标准版与RTT Smart版结合,两个操作系统各司其职,充分发挥各自性能。具有实时性强、智能化程度高、操作简单、功能多样、可靠性高、响应速度快的特点。 本作品有两种模式: 1.眼控模式 用户先在电脑上插入接收器。设备启动时默认进入眼控模式,在此模式下,需要进行3秒左右的校准。用户需要在这3秒内直视前方。校准完毕后,系统蜂鸣器会发出提示音。此时电脑上的鼠标会随着目光的注视方向移动。用户说出“点击”“上”“下”“打开”“关闭”“切换”即可执行左键单击、滚轮上滑、滚轮下滑、左键双击、关闭窗口、切换模式的操作,当系统识别到语音指令时,LED灯与蜂鸣器会有相应的反馈。 2.手势模式 用户在眼控模式下说出“切换”或者按下设备上的按键后,系统进入手势模式。本系统一共可以识别8种手势,手势的设计尽量贴近用户日常使用鼠标的习惯,分别如下图所示。在手势模式下,设备还会开启头部动作识别功能!当用户做出“摇头”的动作,电脑会弹出当前已经打开的所有窗口供用户选择,再次“摇头”可以选择需要打开的窗口,做出“点头”的动作,电脑将进入所选择的窗口。 当用户在屏幕前做出“滚轮”手势时,设备进入滚轮模式,此时用户的手掌上下移动就可以控制鼠标滚轮上下移动,设备在滚轮模式下不再识别其他手势。当用户再次做出“滚轮”手势时,设备退出滚轮模式,此时可以识别其他手势。 当用户第一次做出“最小化窗口”手势时,当前窗口会最小化(而不是关闭),正如同“关闭窗口”手势的区别,保留了一根大拇指。当用户再次做出“最小化窗口”手势时,会把上次最小化的窗口恢复。 当用户处于“无”手势时,鼠标跟踪食指移动。 当用户做出“切换模式”手势时,设备会切换至眼控模式。