常用有话帧检测技术（VAD）

作者：桂。

时间：2017-05-31 17:43:22

前言

总结一下基本的有话帧检测（Voice activity detection, VAD）技术，基于神经网络的待后面梳理完神经网络的理论后再作整理。

一、双门限

这是一种Boosting的思路，即：两个弱分类器可以组合更强的分类器，依次类推，三、四门限其实都可。每一种门限对应一种判决准则。

基本的双门限：短时能量+短时过零率，其原理是元音能量较大，用短时平均能量检测，辅音频率较高，用短时平均过零率检测。

考虑到噪声的影响，通常作平滑处理。如：中值滤波，medfilt.

二、相关

该算法通过计算信号的相关系数，主要利用信号、噪声相关系数的差异性。依次扩展的方法包括：1）最大端点检测;2）利用相关函数的归一化R，主/副峰比值;3)音频的相关函数具有一定的周期性，可以转换成余弦求解→自相关函数余弦角值的端点检测。

三、方差

语音与噪声在频谱域中差异大，有话帧：随频带变化较大，噪声变化较小，此类方法推广的应用：1）均匀子带划分;2）Bark子带划分;3)小波包Bark子带。

四、谱熵

熵是衡量不确定性的量度，噪声在频谱分布较均匀，熵较大;语音分布不均匀，熵较小，归一化的能量得到概率密度，依此计算出熵，利用该原理可以实现VAD检测。

五、能零比和能熵比

能零比：短时能量与短时过零率的比值;

能熵比：短时能量与谱熵的比值。

六、其他方法

EMD的端点检测，本质是降噪+VAD检测，丢弃EMD分解的高频分量，对剩余的IMF分量进行VAD检测。

小波变换与基于EMD的方法大同小异。

秒客网