基于动态时间规整的英语/波斯语数字及指令语音识别系统
项目介绍
本项目实现了一个基于动态时间规整(DTW)算法的双语言语音识别系统,专门针对英语和波斯语的数字(0-9)及基础指令进行识别。系统采用MATLAB开发,提供了命令行和图形用户界面两种交互模式,支持实时录音识别和离线音频文件处理,具备识别结果置信度评估和可视化反馈功能。
功能特性
- 多语言支持:同时识别英语和波斯语两种语言的语音输入
- 双重识别目标:准确识别0-9数字发音及基础指令词汇
- 双模式运行:提供命令行版本和图形用户界面版本满足不同使用需求
- 灵活输入方式:支持实时麦克风录音识别和离线音频文件处理
- 智能帮助系统:集成简明易懂的操作指南和使用说明
- 结果可视化:在GUI版本中直观展示识别过程和匹配结果
- 置信度评估:为每个识别结果提供匹配程度评分参考
- 日志记录功能:自动保存识别过程的关键信息和时间戳
使用方法
- 启动系统:运行根目录下的
Start.m脚本即可启动整个识别系统 - 选择模式:根据需求选择命令行界面或图形用户界面版本
- 设置参数:配置识别语言(英语/波斯语)、输入源(实时录音/音频文件)等参数
- 开始识别:按照界面提示进行语音输入或选择音频文件
- 查看结果:系统将输出识别文本结果、置信度评分及相关可视化信息
系统要求
- 操作系统:Windows 7/10/11,Linux或macOS
- 运行环境:MATLAB R2018b或更高版本
- 硬件要求:至少4GB内存,支持音频输入设备(用于实时录音模式)
- 依赖工具包:MATLAB信号处理工具箱、音频系统工具箱
文件说明
main.m文件作为系统的核心控制模块,承担着语音识别流程的整体调度功能,主要包括音频信号的前端预处理、特征参数的关键提取、动态时间规整算法的模式匹配计算、识别结果的决策判断与输出生成,同时负责协调图形用户界面的交互响应与实时数据可视化展示。