基于隐马尔可夫模型的个人孤立词语音识别系统
项目介绍
本项目实现了一个针对个人用户的孤立词语音识别系统。系统核心采用隐马尔可夫模型(HMM),通过用户自行录制的语音样本进行模型训练,能够准确识别输入的语音片段所属的词语类别。系统包含完整的语音信号处理流水线:从语音预处理、MFCC特征提取,到HMM模型训练与识别,最终输出识别结果及置信度,并提供训练过程与识别结果的可视化分析。
功能特性
- 个性化训练:支持用户使用自定义词语的录音样本训练专属HMM模型
- 高精度识别:基于HMM的前向-后向算法,提供词语分类及概率置信度
- 完整特征提取:提取梅尔频率倒谱系数(MFCC)作为语音特征
- 模型持久化:训练后的HMM参数(状态转移矩阵、观测概率矩阵等)可保存至文件
- 多维度可视化:支持MFCC特征图、似然概率变化曲线及HMM状态路径可视化
使用方法
数据准备
- 训练数据:为每个待识别词语录制多个语音样本,保存为.wav格式(16kHz采样率,单声道)
- 识别数据:待识别的语音片段,格式要求与训练数据一致
训练模型
运行系统主程序,选择训练模式,指定训练数据所在目录。系统将自动为每个词语训练对应的HMM模型。
语音识别
在识别模式下,加载已训练的HMM模型,选择待识别的语音文件,系统将输出最可能的词语标签及其后验概率。
结果查看
识别完成后,可查看MFCC特征频谱图、识别过程中的似然概率曲线以及HMM状态转移路径图。
系统要求
- MATLAB R2018b或更高版本
- 信号处理工具箱(Signal Processing Toolbox)
- 统计学与机器学习工具箱(Statistics and Machine Learning Toolbox)
文件说明
系统的主入口文件整合了核心功能流程,主要包括:初始化系统参数与路径,驱动语音数据加载与预处理流程,控制MFCC特征提取模块的执行,调度隐马尔可夫模型的训练过程与参数优化,管理模型文件的保存与加载操作,实施基于前向-后向算法的语音识别计算,并统筹生成识别结果报告与各类可视化图表。