该项目旨在通过数学模型和信号处理算法对合成语音的质量进行量化评估,以衡量合成语音相对于原始参考语音的忠实度。系统集成了多种主流的客观评价指标:信噪比(SNR)和分段信噪比(SegSNR)用于评估合成信号中的噪声水平与信号保真度;倒谱距离(CD)通过提取语音的线性预测倒谱系数或梅尔倒谱系数,计算参考语音与合成语音在声学频谱包络上的差异,这与人类感知的音质好坏高度相关;此外,系统还包括均方误差(MSE)和信号平均值比较等基础统计分析,用于确认信号在时域上的偏移。该系统实现了完整的语音处理流程,包括语音信号对齐