基于短时能量与过零率的语音端点检测系统
项目介绍
本项目实现了一个基于短时能量与过零率特征的语音端点检测系统。该系统能够准确识别语音信号中的有效语音段起始点和结束点,通过双门限比较法结合两种时域特征,有效区分语音段与静音段。系统支持音频文件输入和实时录音两种模式,并提供直观的可视化分析界面。
功能特性
- 多模式输入支持:支持.wav格式音频文件读取(8kHz-44.1kHz)和实时麦克风录音(默认16kHz)
- 完整信号处理流程:实现预加重、分帧、加窗等预处理操作
- 双特征提取:计算短时能量和短时过零率特征
- 智能端点检测:采用双门限比较法进行精确的语音段定位
- 可视化分析:同步显示原始波形、特征曲线和检测结果标记
- 参数可配置:可调节帧长、帧移、能量阈值和过零率阈值
- 结果统计输出:提供语音段数量统计和各段时长信息
使用方法
- 音频文件检测模式
- 选择"文件输入"模式
- 指定.wav格式音频文件路径
- 调整检测参数(可选)
- 运行系统查看检测结果和统计信息
- 实时录音检测模式
- 选择"实时录音"模式
- 点击开始录音按钮
- 对着麦克风说话
- 停止录音后自动显示分析结果
- 参数设置说明
- 帧长:默认20ms,影响特征分析的时域分辨率
- 帧移:默认10ms,控制帧之间的重叠程度
- 能量阈值:用于判断语音段的高门限值
- 过零率阈值:用于辅助判断的低门限值
系统要求
- 操作系统:Windows/Linux/macOS
- 软件环境:MATLAB R2018b或更高版本
- 硬件要求:支持音频播放和录音的声卡设备
- 依赖工具包:Signal Processing Toolbox
文件说明
主程序文件实现了系统的核心控制逻辑,包括用户界面构建、输入模式选择、参数配置管理、音频数据获取、信号预处理流程调度、特征提取算法执行、端点检测决策判断、图形化结果显示以及检测结果统计输出等功能,是整个系统的中枢控制模块。