基于麦吉尔大学感知音频质量客观评价系统的README
项目介绍
本项目是一个基于加拿大麦吉尔大学(McGill University)电信与信号处理实验室研究理论开发的音频质量评价系统。该系统旨在通过模拟人类听觉系统的生理及心理声学特性,对经过压缩编码或信号处理后的音频进行客观评分。系统旨在模拟人耳对外耳/中耳滤波、耳蜗频率分析以及掩蔽效应的感知,最终生成一个与人类主观听感(MOS分值)高度相关的客观差异等级(ODG)。
主要功能特性
- 生理听觉模拟:集成外耳与中耳的频率响应加权,真实还原人耳对不同频段声音的敏感度差异。
- 心理声学建模:实现从线性频率域到Bark域(临界频带)的转换,模拟人耳的频率分辨率。
- 掩蔽效应计算:通过扩散函数(Spreading Function)模拟频域掩蔽效应,识别信号中的感知冗余。
- 多维度特征提取:提取包括平均掩蔽噪声比(NMR)、带宽缩减程度、调制差异以及相对强度差异在内的模型输出变量(MOV)。
- 标准化评分输出:基于客观评价标准,计算并输出0(无损)至-4(严重干扰)之间的ODG评分,直观反馈音频受损程度。
- 全自动化评价流程:集成信号预处理、特征分析、分数映射及结果可视化于一体。
系统要求
- 环境/软件:MATLAB(建议2020b及以上版本)。
- 必备工具箱:Signal Processing Toolbox(信号处理工具箱)。
- 音频资源:待评价音频建议采用48kHz采样率以获得最佳评估精度。
实现逻辑与算法详述
该评估算法的流程严格遵循生理听觉模型的研究结论,具体逻辑如下:
1. 信号预处理与校准
系统首先将输入的参考音频与待测音频进行归一化处理及其采样率对齐。代码中模拟了将信号电平对应到声压级(SPL)的步骤,通过缩放峰值振幅确保特征提取在统一的量级下进行。
2. 听觉滤波器组与外耳模拟
系统利用特定的数学公式(Terhardt 1979模型)构建外耳/中耳频率响应。该过程通过对频谱施加频率相关的增益,模拟了声音在进入内耳之前的物理衰减和放大特性。
3. 时频转换(STFT)
采用短时傅里叶变换,利用Hann窗和50%的重叠率将时域信号转换为时频表示。这使得系统能够在离散的时间帧内分析音频的频率组成。
4. 内部表示(Internal Representation)构建
- Bark尺度转换:将线性频率坐标映射到非线性的Bark域,并细分为109个临界频带单元。
- 频率掩蔽处理:通过应用扩散函数,将每个频带的能量扩散到相邻频带。该算法采用了固定的下斜率(27 dB/Bark)和上斜率(-15 dB/Bark),模拟了强信号对弱信号的掩蔽作用。
5. 感知特征向量(MOV)提取
系统从对比中提取五类核心特征:
- AvgModDiff:衡量原始信号与失真信号之间的调制能量差异,反映时域包络的变化。
- AvgNMR:掩蔽噪声比,衡量失真成分相对于掩蔽阈值的强度。
- BandwidthRef/Test:分别估算参考信号与待测信号的有效带宽,识别高频丢失情况。
- RelTintDiff:相对强度差异,计算整体激励模式的偏差比例。
6. 回归映射与评分生成
将提取到的特征向量输入预定义的线性映射模型。通过加权求和并添加偏置项,系统将复杂的感知特征转化为符合PEAQ标准的ODG数值。
关键算法模块分析
- 外耳/中耳滤波函数:通过公式实现频率相关的权重分配,反映出人耳在2k-4kHz左右的最高敏感度,并过滤极低频和极高频成分。
- 扩散函数算法:此部分是掩蔽效应的核心。它通过对每个Bark频带的能量点进行三角形斜率卷积,生成动态的掩蔽阈值线,从而识别哪些噪声是被掩盖的,哪些是可感知的。
- 有效带宽估算:利用能量累积分布函数,识别出能量占比达到95%时的截止频率。这一算法能够准确反应音频在低通滤波或有损压缩时的频谱截断现象。
- 结果可视化引擎:生成包含时域波形对比、Bark域激励模式云图、感知差异密度图(dB)以及特征分布雷达图的综合报告,不仅给出了最终分数,还提供了失真发生的时频位置。
使用方法
- 准备环境:在MATLAB中打开项目文件夹。
- 运行评估:执行主脚本程序,系统将自动生成模拟的参考信号(正弦组合)与待测信号(经过滤波和加噪处理)。
- 结果解读:
* 查看
Objective Difference Grade (ODG):0为无损,分值越低表示失真越明显。
* 观察
感知差异密度图:颜色变亮区域代表该时间点和该频段的感知失真较大。
* 分析
MOV条形图:了解造成质量下降的主要原因(如带宽缩减或噪声比超标)。