常用有话帧检测技术(VAD)

时间:2024-04-15 09:38:11

作者:桂。

时间:2017-05-31  17:43:22

链接:http://www.cnblogs.com/xingshansi/p/6925355.html 


前言

总结一下基本的有话帧检测(Voice activity detection, VAD)技术,基于神经网络的待后面梳理完神经网络的理论后再作整理。

一、双门限

这是一种Boosting的思路,即:两个弱分类器可以组合更强的分类器,依次类推,三、四门限其实都可。每一种门限对应一种判决准则。

基本的双门限:短时能量+短时过零率,其原理是元音能量较大,用短时平均能量检测,辅音频率较高,用短时平均过零率检测。

考虑到噪声的影响,通常作平滑处理。如:中值滤波,medfilt.

二、相关

该算法通过计算信号的相关系数,主要利用信号、噪声相关系数的差异性。依次扩展的方法包括:1)最大端点检测;2)利用相关函数的归一化R,主/副峰比值;3)音频的相关函数具有一定的周期性,可以转换成余弦求解→自相关函数余弦角值的端点检测。

三、方差

语音与噪声在频谱域中差异大,有话帧:随频带变化较大,噪声变化较小,此类方法推广的应用:1)均匀子带划分;2)Bark子带划分;3)小波包Bark子带。

四、谱熵

熵是衡量不确定性的量度,噪声在频谱分布较均匀,熵较大;语音分布不均匀,熵较小,归一化的能量得到概率密度,依此计算出熵,利用该原理可以实现VAD检测。

五、能零比和能熵比

能零比:短时能量与短时过零率的比值;

能熵比:短时能量与谱熵的比值。

六、其他方法

EMD的端点检测,本质是降噪+VAD检测,丢弃EMD分解的高频分量,对剩余的IMF分量进行VAD检测。

小波变换与基于EMD的方法大同小异。