客观音频质量评价工具箱
项目介绍
本项目是由麦吉尔大学(McGill University)研究团队开发的客观音频质量评价工具。该算法通过模拟人类听觉系统的生理与心理特性,对音频受损程度进行量化评估。其核心理念与国际电信联盟(ITU)的PEAQ(音频质量感知评价)标准类似,旨在衡量参考信号与受损信号之间的感知差异。该工具箱为音频工程、编解码器开发以及音频设备检测提供了一种高精准度的客观物理测量手段。
功能特性
- 听觉模型模拟:利用非线性滤波器组模拟人耳基底膜的频率分解特性。
- 心理声学建模:实现了同时掩蔽效应模型,并结合了绝对静阈值算法。
- 信号预处理:包含自动时间对齐(时延补偿)与动态电平校准功能。
- 深度特征提取:计算噪声掩蔽比(NMR)和感知损耗能量。
- 多维度评分:输出客观分等级(ODG)及相应的感知质量评级(如:优、良、中、差)。
- 可视化分析:提供时频激励图、感知干扰分布和处理误差热图。
使用方法
- 环境配置:将代码文件放置于MATLAB工作路径中。
- 执行流程:运行主程序,系统将自动生成模拟的参考信号(多频正弦波+白噪声)与受损信号(模拟MP3压缩导致的量化噪声和高频滤波)。
- 结果查看:程序运行结束后,控制台将输出ODG分值和NMR数值,同时弹出四个维度的可视化分析图形。
系统要求
- 环境:MATLAB R2016b 或更高版本。
- 信号处理工具箱:需具备基础的信号处理函数支持(如滤波、互相关运算等)。
核心功能实现逻辑- 环境初始化与参数设置
系统默认采用44.1kHz采样率,设置分析窗口长度为2048个采样点(约46ms),帧移为1024个采样点(50%重叠)。采用汉宁窗(Hann Window)进行分帧,并配置42个Bark临界频带用于后续的心理声学映射。
- 信号退化模拟
为了演示评估能力,系统生成了受损的待测信号。该部分通过添加特定能量的随机噪声模拟动态量化失真,并利用6阶巴特沃斯低通滤波器(截止频率12kHz)模拟高频受阻现象,从而还原真实的数字音频压缩损伤。
- 高精度前置处理
- 时间同步:利用互相关(Cross-correlation)算法计算参考信号与待测信号之间的时延,并进行样本级的剪裁对齐,消除因传输导致的相位滞后。
- 电平校准:将信号幅度统一归一化至特定的量化参考电平(模拟-26dBov电平),确保评估结果不受音量差异的影响。
- 感知域特征分析
- 时频分解:通过快速傅里叶变换(FFT)获取信号功率谱。
- Bark域转换:构建非线性三角形滤波器组,将线性频率轴映射到符合人耳听觉特性的Bark域,计算每个临界频带的能量分布。
- 激励模式建模:通过扩展函数(Spreading Function)计算掩蔽阈值。该算法考虑了频率掩蔽的非对称性(低音掩蔽高音的能力强于反向),并叠加了人耳绝对静阈值曲线。
- 量化评估指标提取
- NMR(噪声掩蔽比):计算感知失真的功率与掩蔽阈值之间的比率。
- 感知能量差:累加两路信号在激励模式下的差值,反映总体的感知损耗。
- 评分映射与分级
利用非线性映射公式,将提取的底层特征(MOV)转换为标准ODG分值。分值范围从-4(感官极差,非常恼人)到0(无损感官,无感知差异)。
关键函数与算法分析
该函数利用非线性比例公式(基于atan函数)将频率坐标转换为Bark坐标。通过在0到最大Bark值之间均匀分布中心点,构建一组相互重叠的三角形滤波器,形成模拟基底膜频率选择性的矩阵。
该算法是系统的核心。它首先针对每个频带计算掩蔽倾斜度(Slope),其中高频掩蔽低频的斜率固定,而低频掩蔽高频的斜率随信号强度和频率动态调整。通过功率加和方式叠加各频带的掩蔽能量,并最终融合绝对静阈值(ATH)公式,从而准确确定在该音频背景下人耳能感知到的最小失真阈值。
系统提供四种可视化视图:
- 平均物理激励模式图:展示参考与受损信号在Bark频带上的能量分布差异。
- 感知干扰功率分布:分析失真量随时间的变化情况。
- 时频激励分布图:通过热图展示信号在时间和频率维度上的心理声学强度。
- 感知域失真热图:直观定位失真发生的具体频率点和时间段,帮助开发者定位算法缺陷。