基于短时能量及过零率的端点检测系统
项目介绍
本项目实现了一个音频端点检测系统,能够自动识别WAV音频文件中语音信号的起始和结束位置。系统核心采用经典的双门限判决机制,通过分析音频的短时能量与过零率两个关键参数,有效区分语音段与静音段。检测结果通过图形界面直观展示,并输出详细的语音段统计信息。
功能特性
- 自适应采样率:支持常见采样率(如8kHz、16kHz等)的单声道WAV文件
- 双参数分析:结合短时能量(反映信号强度)和过零率(刻画信号频率特性)进行联合判决
- 可视化结果:图形界面同步显示原始波形及被标记出的语音段落
- 详细输出:命令行输出检测到的语音段数量、时间长度等信息
- 分析可视化(可选):可生成短时能量与过零率的变化曲线图,用于分析与调试
使用方法
- 准备音频:确保待检测的音频为单声道WAV格式文件。
- 运行系统:启动主程序,根据提示输入或选择音频文件路径。
- 查看结果:
- 图形窗口将显示原始波形,并用不同颜色或标记高亮出检测到的语音段。
- 命令行窗口将打印类似如下信息:
检测到 3 个语音段,总时长 2.45 秒。
- (可选)查看分析图:如需观察短时能量和过零率的详细变化过程,可开启相应选项。
系统要求
- 软件环境:MATLAB (推荐 R2016a 或更高版本)
- 操作系统:Windows / Linux / macOS
- 必要工具包:MATLAB 基础安装(需包含 Signal Processing Toolbox)
文件说明
主程序文件集成了系统的核心功能,包括:读取指定格式的音频文件并对采样率进行适应性处理;将音频信号分帧并进行加窗预处理;计算每一帧的短时能量和过零率特征;依据设定的能量阈值和过零率阈值,应用双门限判决逻辑确定语音段的起点和终点;最终生成包含检测标记的波形图并在命令行输出检测结果摘要。可选地,它还能绘制特征参数的变化曲线以供分析。