基于隐马尔科夫模型的孤立词语音识别系统
项目介绍
本项目实现了一个基于隐马尔科夫模型(HMM)的孤立词语音识别系统。系统通过梅尔频率倒谱系数(MFCC)对语音信号进行特征提取,利用HMM对每个孤立词建立声学模型,并通过Viterbi算法进行解码识别。该系统支持多类别词语的训练与识别,并包含完整的模型性能评估功能。
功能特性
- HMM模型训练:支持多类孤立词的参数学习,自动估计初始概率、状态转移矩阵和观测概率矩阵
- 语音信号预处理:实现端点检测、预加重、分帧加窗等预处理操作
- 特征提取:提取13维MFCC特征向量,包含一阶和二阶差分系数
- Viterbi解码:采用动态规划算法计算最优状态路径及对应概率
- 性能评估:提供识别准确率计算和混淆矩阵分析功能
使用方法
训练阶段
- 准备训练数据:将同一词语的多次发音样本放置于同一文件夹
- 配置模型参数:设置HMM状态数、高斯混合分量数等超参数
- 执行训练程序:系统自动学习每个词语的HMM参数并保存模型
识别阶段
- 输入待识别语音:支持16kHz采样率、单声道WAV格式文件
- 运行识别程序:系统输出识别结果、对数概率值和帧级状态路径
- 查看评估结果:获取识别准确率和混淆矩阵分析报告
系统要求
- MATLAB R2018a或更高版本
- 信号处理工具箱
- 统计学和机器学习工具箱
- 支持WAV格式音频文件处理
文件说明
主程序文件整合了系统的核心处理流程,包括语音数据的读取与预处理、特征参数的提取与计算、隐马尔科夫模型的训练与优化、识别过程中的概率计算与路径解码,以及最终的性能评估与结果输出功能。该文件实现了从语音输入到识别结果生成的完整流水线操作。