基于极限学习机的半监督软测量方法

时间:2024-04-03 14:54:49

基于极限学习机的半监督软测量方法

(ELM with semisupervised for soft sensor )

背景

最近看到一些批次过程过程变量和监测变量采样率不一样的情况,就是监测变量是一段时间,在获得产品之后检测获得的,而过程变量是传感器在短周期内获取的数据。

一. ELM(extreme learning machine,极限学习机)

不同于BP神经网络,ELM只需要调整最后一层的权重(隐藏层到输出层)。其他层的权值只需要随机设置。

可以理解ELM为单隐层的神经网络,即输入层、隐层、输出层的结构。算法按照以下来进行:

1、随机产生高斯噪声赋值 W1W_1隐层权重矩阵;

2、使用最小二乘法估计期望Y 和实际输出误差最小,获得输出权重$W_2$权重矩阵。(这个和bp网络一样)

因此,存在速度快,泛化能力好的特点。

原理:

Y^=W2σ(W1x)\hat{Y} = W_2\sigma(W_1x)

其中,W 代表权值函数,σ\sigma代表**函数。

模型图:
基于极限学习机的半监督软测量方法

$\beta$为隐层到输出层的权重矩阵。
J为隐层的数据。

Y^=Jβ\hat{Y} = J\beta

优化函数:
minβΓELM=12β2+C2YY^\mathop{\min}\limits_{\beta} \Gamma_{ELM} = \frac{1}{2}||\beta||^2 + \frac{C}{2}||Y - \hat{Y}||

这里,第一项是防止过拟合(这里使用了L2范数,L2范数比L1范数更加的快速,满足强凸要求,但L1范数有稀疏特性特点);第二项是预测值和目标值之间的差异,并且加上一个惩罚系数C。

然后,直接对优化函数求导为0。

二、半监督分层ELM(Semisupervised Hierarchical Extreme Learning Machine)

借鉴自编码器(autoEncoder)思想,使用ELM结构作为AE的一个单元,先使用有标签、无标签样本对整个网络进行进行预训练,获得ELM-AE的各层权重$W$, 然后使用使用有标签样本对最后一层的权重 $\beta$权重矩阵进行调整。

值得注意的是,这篇文章基于假设:

H1: 有标签样本集 SL和无标签样本集SU同分布。

Φ^=12Σi,jμijY^iY^j2\hat{\Phi} = \frac{1}{2}\mathop{\Sigma}\limits_{i,j}\mu_{ij}||\hat{Y}_i - \hat{Y}_j||^2

μij\mu_{ij}代表两个样本 xi 和 xj之间的相似度。并定义:

μi,j=exp(xixj2/2σ2)\mu_{i,j} = exp(-||x_i - x_j||^2/2\sigma^2)

可以推导,

Φ^=Tr(Y^TLY^)\hat{\Phi} = Tr(\hat{Y}^TL\hat{Y})

推导看原论文,矩阵论学得不好,没看懂。

半监督ELM-AE优化目标:

ΓSSELM=minβ12β2+C2YLYL^+λ2Tr(Y^TLY^)\Gamma_{SS-ELM} = \mathop{\min}\limits_{\beta}\frac{1}{2}||\beta||^2 + \frac{C}{2}||Y_L - \hat{Y_L}|| + \frac{\lambda}{2}Tr(\hat{Y}^TL\hat{Y})
其中,
Yi^,i=1,...,l+u\hat{Y_i}, i = 1,...,l+u

三、总结

这种半监督软测量方法,只能适用于连续过程,而且有标签样本和无标签样本要求同分布。
在一些批次过程,每个批次数据趋势都相近,目标变量只有在一个批次结束才能获得,这种情况下,如何利用一个批次内所有的过程变量呢?


参考:

  1. Le Yao
    Deep Learning of Semisupervised Process Data
    With Hierarchical Extreme Learning Machine
    and Soft Sensor Application
    ;
  2. zhihu: L1和L2区别;
  3. wikipedia: 极限学习机;