SEGAN: Speech Enhancement Generative Adversarial Network

时间:2024-01-22 12:27:42

论文原文地址博客原地址

一、引言

经典的语音增强(speech enhancement)方法有谱减法(spectral subtraction)、维纳滤波(Wiener filtering)、统计模型(statistical model-based methods)和子空间算法(subspace algorithms)。

论文结合GAN网络提出了SEGAN,并通过实验发现,SEGAN主要优势有以下三点:

1、提供一个快速语音增强过程,没有因果关系是必要的,因此没有像RNN那样的递归操作。

2、它基于原始音频做处理,没有提取特征,因此没有对原始数据做出明确的假设。

3、从不同的说话人和噪声类型中学习,并将他们合并到相同的共享参数中,这使得系统在这些维度上变得简单和一般化。

二、Generative Adversarial Networks

  论文的第二部分,是介绍GAN的,如果有GAN的基础可以跳过这一节。GAN网络是一种对抗模型,可以将样本服从Z分布的样本映射到服从X分布的x。

关于GAN的更多解释:

  有人说GAN强大之处在于可以自动的学习原始真实样本集的数据分布。为什么大家会这么说。

对于传统的机器学习方法,我们一般会先定义一个模型让数据去学习。(比如:假设我们知道原始数据是高斯分布的,只是不知道高斯分布的参数,这个时候我们定义一个高斯分布,然后利用数据去学习高斯分布的参数,最终得到我们的模型),但是大家有没有觉得奇怪,感觉你好像事先知道数据该怎么映射一样,只是在学习模型的参数罢了。

GAN则不同,生成模型最后通过噪声生成一个完整的真实数据(比如人脸),说明生成模型已经掌握了从随机噪声到人脸数据的分布规律。有了这个规律,想生成人脸还不容易,然而这个规律我们事先是不知道的,我们也不知道,如果让你说从随机噪声到人脸应该服从什么分布,你不可能知道。这是一层层映射之后组合起来的非常复杂的分布映射规律。然而GAN的机制可以学习到,也就是说GAN学习到了真实样本集的数据分布。

三、Speech Enhancement GAN 以及 实验步骤

  我们有一个噪声的输入语音信$\tilde{x}$,我们想要去除噪声获得增强的语音信号$\hat{x}$,我们打算用SEGAN(语音增强生成对抗网络)来实现目的。G网络来执行增强操作,G网络的输入是噪声语音信号$\tilde{x}$和潜在表示z,其输出是增强的语音信号$x=G(\tilde{x})$,G网络被设计成完全卷积的,以至于根本没有全连接的网络层,这就使得在整个分层的过程中网络要紧密的关注输入信号之间的相关性,此外卷积网络还减少了训练的参数和训练时间。

  G网络的结构类似于自动编码器(auto-encoder)。在编码阶段,输入信号被投影,通过被多个strided卷积层压缩,其次是PReLUs(参数整流线性单元),从滤波器的每个步骤获得卷积结果。我们选择strided卷积,因为对于GAN训练它相对于其他的池化方法更稳定。抽取直到我们得到一个被称作思维向量c的压缩表示,它与前夫向量z相连接。在解码阶段,编码过程通过分数步长转置卷积(有时称为反卷积),进行反转,之后就是PReLUs。

  G网络还具有跳过连接、将每个编码层连接到相应的解码层以及绕过在模型中间执行的压缩特性(图二)。

 图二:生成器,encoder-decoder

  这是因为模型的输入和输出共享相同的底层结构,即自然语音。因此如果我们强制所有的信息流过压缩瓶颈,那么为了正确地重构语音波形,可能会丢失许多低级一点的细节。跳过连接直接将波形的细粒度信息传递给解码阶段(例如:相位、对准)。此外,他们提供了更好的训练行为,因为梯度可以更深地流过整个结构,而不会消失很多[24]

  G网络的一个重要特征就是它的端到端的结构,因此它处理16kHz采样的原始语音,去掉所有的中间变换来提取声学特征(与许多常见的管道形成对比),在这类模型中,我们必须要小心典型的回归损失,如平均绝对误差或均方误差,如原始语音生成模型WaveNET中所提到的[25]。这些损失在我们强假设产生的分布如何成形和强加一些重要的模型限制时起作用(例如不允许多模态分布和将预测偏向所有可能预测的平均值)。我们克服这些限制的解决方案是使用生成对抗设置。通过这种方式,D负责将信息传递给G哪个是真的,哪个是假的,这样G就可以朝向真实稍微修正它的输出波形,去除被D判别是假的噪声信号。D可以理解为学习一些损失,使得G的输出看起来真实。

  在初步实验中,我们发现在G的损失上增加一个次要成分是很方便的,这样可以使G的世代与干净的例子之间的距离最小化。为了测量这样的距离,我们选择L1范数,因为它已经被证明在图像处理领域是有效的[20,26]。通过这种方式,我们让对抗性组件添加更多的细粒度和现实的结果。L1范数的大小由一个新的超参数控制。因此,我们选择的LSGAN (Eq. 4)中的G损失变成

四、实验步骤

4.1 数据集

  为了评估SEGAN的有效性,我们使用Valentini等人的数据集[27]。我们之所以选择它,是因为它是开放的、可用的,而且数据的数量和类型符合我们这项工作的目的:概括了不同说话人的多种噪音。数据集是从语音语音库[28]中选择的30个说话人:28个包含在训练集中,2个包含在测试集合中。为了建立噪声训练集,总共有40种不同的条件被考虑为[27],10种类型的噪声(2种人为噪声,8种来自于需求数据库[29]),每种信噪有4个信噪比(SNR)(15dB、10dB、5dB和0dB)。每个说话人在每个条件下都有大约10个不同的句子。为了建立测试集,总共考虑20个不同的条件[27],5种类型的噪声(全部来自需求数据库),每个噪声有4种信噪比(17.5dB、12.5dB、7.5dB和2.5 dB)。每个测试说话人在每个条件下大约有20个不同的句子。重要的是:使用不同的说话人和条件,测试集是完全看不见的(和训练集不同)。

4.2 SEGAN步骤

  模型使用RMSprop[30]对86个epoch进行训练,学习率为0.0002,有效batch size为400,我们将训练示例分成两组(图3)。

真实的一对(噪声信号和纯净的信号$(\tilde{x},x)$)和伪造的一对(噪声信号和增强的信号$(\tilde{x},\hat{x})$)。为了使数据集文件符合我们的波形生成目的,我们对原始语音进行下采样从48 kHz到16 kHz。在训练期间,我们通过每隔的500毫秒(50%的重叠)滑动窗口提取大约1秒钟的波形(16384个样本)。在测试期间,我们基本上在整个测试过程中滑动窗口,没有重叠,并在流的末尾连接结果。在训练和测试中,我们对所有输入样本都使用了系数为0.95的高频预强调滤波器(在测试过程中,输出相应地去加重)。

  关于L1正则化的$\lambda $权,经过实验,我们将其设置为100,用于整个训练。我们最初将其设为1,但我们观察到,在对抗性的情况下,G损失是两个数量级,所以L1对学习没有实际影响。一旦我们把它设为100,我们就会看到L1中的最小化行为和对抗性的平衡行为。我们假设随着L1值的降低,输出样本的质量增加,有助于G在现实生成方面更有效。

  在结构上,G由22个滤波器宽度31且阶梯N=2的一维阶梯卷积层组成。每层的滤波器数量增加,也就是随着宽度(信号在时间上的持续时间)变窄,深度变大。每一层是样本X特征的映射,每一层的维度是16384*1、8192*16、4096*32、2048*32、1024*64、512*64、256*128、128*128、64*256、32*256、16*512和8*1024。在这里,我们从先前的8*1024维正态分布N (0, I)中采样噪声样本z。如上所述,G的解码器阶段是具有相同滤波器宽度和每层相同滤波器数量的编码器的镜像。然而,忽略连接和添加潜在向量使得每一层的特征映射的数量加倍。

  判别网络D的编码器采用和生成网络G相同的一维卷积结构。它适用于卷积分类网络和传统拓扑结构。不同之处在于

1)、得到了16384个双输入通道的样本

2)、在$\alpha=0.3$的LeakyReLU非线性之前,它使用了virtual batch-norm[31]

3)、在最后一层激励层中,有一个一维卷积层(1*1卷积),其中有一个宽度为1的滤波器,他不会对隐藏层的激励信号进行下采样

  后来(3)减少了分类神经元和隐藏激励线性全连接所需的参数数量。

后来(3)减少了最终分类神经元所需参数的数量,该神经元完全连接到所有具有线性行为的隐藏激励。这意味着我们将全连接的组件中所需的参数量从8*1024=8192减少到8。并且1024个信道的合并方式可以通过卷积的参数来学习

  所有的项目都是用TEnsorflow开发的,代码可以在https://github.com/santi-pdp/segan找到。我们参考此资源以进一步实现我们的详细信息。在http://veu.talp.cat/segan/中提供了增强的语音样本。

五、结果

4.1  客观评价

  为了评估增强语音的质量,我们计算以下客观度量(越高越好)。所有度量将增强后的语音信号与824个未处理的语音进行比较,它们是使用了包含在[1]中的实现来计算的,并可在出版商网站2获取。

PESQ:语音质量感知评价,使用ITU-T P.862.2[33]中建议的宽带版本(0.5 - 4.5)。

CSIG:仅关注语音信号[34](从1到5)的信号失真的平均意见评分(MOS)预测。

CBAK:背景噪声侵入性的MOS预测[34](从1到5)。

COVL:总体效应的MOS预测[34](从1到5)。

SSNR:分段SNR[35,P 41](从0到1)。

表一:目的比较噪声信号与维纳增强信号和分段增强信号的优劣。

  表一显示了这些度量的结果,为了具有比较参考,如[1]中所提供的,他还显示了当但直接应用有噪声信和基于先验SNR估计[36]使用wiener滤波的信号时,这些度量的结果。可以观察到SEGAN如何使PESQ稍微变差。然而在所有其他与语音/噪声失真相关的度量中,SEGAN优于Wiener方法。它产生较少的语音失真(CSIG)和更有效地去除噪声(CBAK和SSNR)。因此,它在两个因素(COVL)之间取得了更好的平衡。

4.2  主观评价

  为了比较SEGAN增强的噪声信号和维纳基线,还进行了感知测试。为此从测试集中选择了20个句子,由于数据库没有说明每个文件的噪声的数量和类型,所以通过侦听提供的一些噪声文件来进行选择,试图平衡不同的噪声类型,大多数文件具有低信噪比,但也有少数具有高信噪比的文件。

  总共有16名听众随机抽取20个句子,对于每个句子,都按随机顺序给出了以下三种形式:噪声信号、维纳增强信号和SEGAN增强信号。对于每个信号,听众使用从1到5的刻度对总体质量进行评级。在描述这5个类别时,指示它们注意信号失真和噪声侵入性(例如,5=优秀:非常自然的语音,没有退化和不明显的噪声)。听众可以听任意次数的每个信号,并被要求注意三个信号的比较率。

  在表2中,可以观察到SEGAN如何优于噪声信号和维纳基线。然而,由于噪声信号的信噪比有较大的变化,MOS范围很大,Wiener和SEGAN之间的差异不明显。然而,当侦听者同时比较所有系统时,可以通过减去所比较的两个系统的MOS来计算比较MOS(CMOS)。图4描绘了这种相对比较。我们可以看到SEGAN产生的信号是如何优选的。更具体地,在67%的情况中,SEGAN优于原始(有噪声)信号,而在8%的情况中,有噪声信号是优选的(25%的情况中没有优选)。就Wiener系统而言,53%的案例优选SEGAN,23%的案例优选Wiener(24%的案例不优选)。

表二:主观评价结果比较噪声信号和维纳增强信号和SEGAN增强信号。

图4:CMOS盒图(Seang-Wiener比较中线位于1)。正值意味着SEGAN是首选。

六、总结

  本工作在生成对抗框架下实现了一种端到端的语音增强方法。该模型采用编码器-解码器的全卷积结构,能够快速地进行波形块的去噪处理。结果表明,该方法不仅可行,而且可以代表现有方法的有效替代方案。未来可能的工作包括探索更好的卷积结构并在对抗训练中加入感知权重,以便减少当前模型可能引入的高频伪影。需要做进一步的实验来比较SEGAN与其他竞争方式。

七、致谢

  这项工作是由项目TEC2015-69266 P(MiNeCo/FEDER,UE)支持的。

八、参考文献

[1] P. C. Loizou, Speech Enhancement: Theory and Practice, 2nd ed.Boca Raton, FL, USA: CRC Press, Inc., 2013.
[2] L.-P. Yang and Q.-J. Fu, “Spectral subtraction-based speech enhancement for cochlear implant patients in background noise,” The Journal of the Acoustical Society of America, vol. 117, no. 3, pp. 1001–1004, 2005.
[3] D. Yu, L. Deng, J. Droppo, J. Wu, Y. Gong, and A. Acero, “A minimum-mean-square-error noise reduction algorithm on melfrequency cepstra for robust speech recognition,” in Proc. of the IEEE Int. Conf. on Acoustics, Speech and Signal Processing ICASSP). IEEE, 2008, pp. 4041–4044.
[4] A. L. Maas, Q. V. Le, T. M. O’Neil, O. Vinyals, P. Nguyen, and A. Y. Ng, “Recurrent neural networks for noise reduction in robust asr.” in Proc. of INTERSPEECH, 2012, pp. 22–25.
[5] J. Ortega-Garcia and J. Gonzalez-Rodriguez, “Overview of speech enhancement techniques for automatic speaker recognition,” in Spoken Language, 1996. ICSLP 96. Proceedings., Fourth International Conference on, vol. 2, Oct 1996, pp. 929–932 vol.2.
[6] M. Berouti, R. Schwartz, and J. Makhoul, “Enhancement of speech corrupted by acoustic noise,” in Proc. of the Int. Conf. on Acoustics, Speech, and Signal Processing (ICASS), vol. 4, Apr 1979, pp. 208–211.
[7] J. Lim and A. Oppenheim, “All-pole modeling of degraded speech,” IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 26, no. 3, pp. 197–210, Jun 1978.
[8] Y. Ephraim, “Statistical-model-based speech enhancement systems,” Proceedings of the IEEE, vol. 80, no. 10, pp. 1526–1555, Oct 1992.
[9] M. Dendrinos, S. Bakamidis, and G. Carayannis, “Speech enhancement from noise: A regenerative approach,” Speech Communication, vol. 10, no. 1, pp. 45–57, 1991.
[10] Y. Ephraim and H. L. Van Trees, “A signal subspace approach for speech enhancement,” IEEE Trans. on speech and audio processing, vol. 3, no. 4, pp. 251–266, 1995.
[11] S. Tamura and A. Waibel, “Noise reduction using connectionist models,” in Proc. of the IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 1988, pp. 553–556.
[12] S. Parveen and P. Green, “Speech enhancement with missing data techniques using recurrent neural networks,” in Proc. of the IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2004, pp. 733–736.
[13] X. Lu, Y. Tsao, S. Matsuda, and C. Hori, “Speech enhancement based on deep denoising autoencoder.” in Proc. of INTERSPEECH, 2013, pp. 436–440.
[14] F. Weninger, H. Erdogan, S. Watanabe, E. Vincent, J. Le Roux, J. R. Hershey, and B. Schuller, “Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR,” in Proc. of the Int. Conf. on Latent Variable Analysis and Signal Separation, 2015, pp. 91–99.
[15] Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee, “A regression approach to speech enhancement based on deep neural networks,” IEEE/ACM Trans. on Audio, Speech and Language Processing, vol. 23, no. 1, pp. 7–19, 2015.
[16] A. Kumar and D. Florencio, “Speech enhancement in multiplenoise conditions using deep neural networks,” in Proc. of the Int. Speech Communication Association Conf. (INTERSPEECH), 2016, pp. 3738–3742.
[17] D. Wang and J. Lim, “The unimportance of phase in speech enhancement,” IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 30, no. 4, pp. 679–681, Aug 1982.
[18] K. Paliwal, K. W´ojcicki, and B. Shannon, “The importance of phase in speech enhancement,” Speech Communication, vol. 53, no. 4, pp. 465 – 494, 2011. [Online]. Available: http://www.sciencedirect.com/science/article/pii/S0167639310002086
[19] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,” in Advances in Neural Information Processing Systems (NIPS), 2014, pp. 2672–2680.
[20] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros, “Image-toimage translation with conditional adversarial networks,” ArXiv: 1611.07004, 2016.
[21] X. Mao, Q. Li, H. Xie, R. Y. K. Lau, and Z. Wang, “Least squares generative adversarial networks,” ArXiv: 1611.04076, 2016.
[22] A. Radford, L. Metz, and S. Chintala, “Unsupervised representation learning with deep convolutional generative adversarial networks,” arXiv preprint arXiv:1511.06434, 2015.
[23] K. He, X. Zhang, S. Ren, and J. Sun, “Delving deep into rectifiers: Surpassing human-level performance on imagenet classification,” in Proc. of the IEEE Int. Conf. on Computer Vision (ICCV), 2015, pp. 1026–1034.
[24] ——, “Deep residual learning for image recognition,” in Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770–778.
[25] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, “Wavenet: A generative model for raw audio,” CoRR abs/1609.03499, 2016.
[26] D. Pathak, P. Krahenbuhl, J. Donahue, T. Darrell, and A. A. Efros, “Context encoders: Feature learning by inpainting,” in Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 2536–2544.
[27] C. Valentini-Botinhao, X. Wang, S. Takaki, and J. Yamagishi, “Investigating rnn-based speech enhancement methods for noiserobust text-to-speech,” in 9th ISCA Speech Synthesis Workshop, pp. 146–152.
[28] C. Veaux, J. Yamagishi, and S. King, “The voice bank corpus: Design, collection and data analysis of a large regional accent speech database,” in Int. Conf. Oriental COCOSDA, held jointly with 2013 Conference on Asian Spoken Language Research and Evaluation (O-COCOSDA/CASLRE). IEEE, 2013, pp. 1–4.
[29] J. Thiemann, N. Ito, and E. Vincent, “The diverse environments multi-channel acoustic noise database: A database of multichannel environmental noise recordings,” The Journal of the Acoustical Society of America, vol. 133, no. 5, pp. 3591–3591, 2013.
[30] T. Tieleman and G. Hinton, “Lecture 6.5-RMSprop: divide the gradient by a running average of its recent magnitude,” COURSERA: Neural Networks for Machine Learning 4, 2, 2012.
[31] T. Salimans, I. Goodfellow, W. Zaremba, V. Cheung, A. Radford, and X. Chen, “Improved techniques for training gans,” in Advances in Neural Information Processing Systems (NIPS), 2016, pp. 2226–2234.
[32] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin et al., “Tensorflow: Large-scale machine learning on heterogeneous distributed systems,” arXiv preprint arXiv:1603.04467, 2016.
[33] P.862.2: Wideband extension to Recommendation P.862 for the assessment of wideband telephone networks and speech codecs, ITU-T Std. P.862.2, 2007.
[34] Y. Hu and P. C. Loizou, “Evaluation of objective quality measures for speech enhancement,” IEEE Trans. on Audio, Speech, and Language Processing, vol. 16, no. 1, pp. 229–238, Jan 2008.
[35] S. R. Quackenbush, T. P. Barnwell, and M. A. Clements, Objective Measures of Speech Quality. Englewood Cliffs, NJ: Prentice-Hall, 1988.
[36] P. Scalart and J. V. Filho, “Speech enhancement based on a priori signal to noise estimation,” in Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), vol. 2, May 1996, pp. 629–632 vol. 2.