基于动态时间规整(DTW)的英/波斯语数字及基础指令语音识别系统
项目介绍
本项目是一个基于动态时间规整(DTW)算法的双语言语音识别系统,专门针对英语和波斯语的数字0-9发音以及基础控制指令进行识别。系统提供命令行和图形用户界面两种交互模式,支持实时音频流录制和离线音频文件识别两种输入方式,适用于教育演示、多语言人机交互等场景。
功能特性
- 双语言支持:同时识别英语和波斯语的数字发音及基础指令
- 多模式交互:提供命令行版本和图形用户界面版本满足不同需求
- 灵活输入方式:支持实时麦克风录音和离线WAV文件识别
- 可视化分析:GUI版本实时显示音频波形、频谱特征和识别过程
- 智能辅助:集成简易帮助系统,便于用户快速上手
- 结果记录:自动生成识别日志,保存时间戳和置信度评分
使用方法
- 启动系统:运行
Start.m主脚本启动语音识别系统 - 选择模式:根据需求选择命令行模式或图形界面模式
- 配置参数:设置采样率、语言类型等识别参数
- 输入语音:通过麦克风实时录音或选择预录制的音频文件
- 查看结果:获取识别文本结果、置信度评分及可视化分析
系统要求
- 软件环境:MATLAB R2018b或更高版本
- 硬件要求:支持音频输入设备(麦克风)
- 文件格式:WAV格式音频文件(支持标准采样率和位深度)
文件说明
主程序文件实现了系统的核心控制逻辑,主要包括用户交互界面的初始化与调度、音频输入源的选择与参数配置、实时音频流的采集与处理控制、离线音频文件的加载与预处理、基于DTW算法的语音特征匹配计算、识别结果的综合评价与置信度分析、图形化显示数据的生成与管理,以及系统运行日志的记录与输出等功能。