基于MFCC与HMM的孤立词语音识别系统
项目介绍
本项目实现了一个完整的孤立词语音识别系统,包含语音信号预处理、特征提取、模式训练和识别四个核心模块。系统采用梅尔频率倒谱系数(MFCC)进行语音特征提取,结合隐马尔可夫模型(HMM)进行模式识别,并使用动态时间规整(DTW)算法进行优化。支持对特定词汇库中的词语进行训练和实时语音分类识别,提供可视化分析界面,可显示语音波形、频谱特征和识别结果。
功能特性
- 多模态输入支持:支持.wav格式音频文件(16kHz采样率,单声道,16位量化)和实时麦克风音频输入
- 自定义训练集:允许用户定义个性化训练数据集,每个词语至少包含10个说话人样本
- 完整识别流水线:实现语音预处理→特征提取→模型训练→实时识别的完整流程
- 可视化分析:提供语音波形、MFCC系数矩阵、频谱图、基音周期等特征可视化
- 模型评估:输出HMM模型参数、训练准确率、混淆矩阵等训练报告
- 性能监控:实时显示识别结果、置信度分数、识别时间曲线及准确率、召回率等评估指标
使用方法
- 数据准备:准备训练数据集,包含多个说话人的语音样本,每个词语至少10个样本
- 模型训练:运行训练模块,系统将自动提取MFCC特征并训练HMM模型
- 实时识别:启动识别模式,可通过麦克风输入语音进行实时识别
- 结果分析:查看可视化界面分析识别结果和系统性能指标
系统要求
- MATLAB R2018b或更高版本
- 信号处理工具箱
- 统计学和机器学习工具箱
- 音频采集设备(用于实时识别)
- 内存≥4GB,硬盘空间≥1GB
文件说明
主程序文件整合了系统全部核心功能,包括语音数据的读取与预处理、梅尔频率倒谱系数特征提取、隐马尔可夫模型的训练与优化、实时音频采集与识别处理、多种可视化分析结果的生成展示以及系统整体性能的评估计算。该文件作为系统的主要入口,实现了从数据输入到结果输出的完整工作流程。