基于极限学习机的半监督软测量方法

（ELM with semisupervised for soft sensor ）

背景

最近看到一些批次过程过程变量和监测变量采样率不一样的情况，就是监测变量是一段时间，在获得产品之后检测获得的，而过程变量是传感器在短周期内获取的数据。

一. ELM(extreme learning machine，极限学习机)

不同于BP神经网络，ELM只需要调整最后一层的权重（隐藏层到输出层）。其他层的权值只需要随机设置。

可以理解ELM为单隐层的神经网络，即输入层、隐层、输出层的结构。算法按照以下来进行：

1、随机产生高斯噪声赋值 $W_1$ 隐层权重矩阵；

2、使用最小二乘法估计期望Y 和实际输出误差最小，获得输出权重 $W_2$ 权重矩阵。（这个和bp网络一样）

因此，存在速度快，泛化能力好的特点。

原理：

$\hat{Y} = W_2\sigma(W_1x)$

其中，W 代表权值函数， $\sigma$ 代表**函数。

模型图：
基于极限学习机的半监督软测量方法

令 $\beta$ 为隐层到输出层的权重矩阵。
J为隐层的数据。

$\hat{Y} = J\beta$

优化函数：
$\mathop{\min}\limits_{\beta} \Gamma_{ELM} = \frac{1}{2}||\beta||^2 + \frac{C}{2}||Y - \hat{Y}||$

这里，第一项是防止过拟合（这里使用了L2范数，L2范数比L1范数更加的快速，满足强凸要求，但L1范数有稀疏特性特点）；第二项是预测值和目标值之间的差异，并且加上一个惩罚系数C。

然后，直接对优化函数求导为0。

二、半监督分层ELM（Semisupervised Hierarchical Extreme Learning Machine)

借鉴自编码器（autoEncoder）思想，使用ELM结构作为AE的一个单元，先使用有标签、无标签样本对整个网络进行进行预训练，获得ELM-AE的各层权重 $W$ , 然后使用使用有标签样本对最后一层的权重 $\beta$ 权重矩阵进行调整。

值得注意的是，这篇文章基于假设：

H1: 有标签样本集 S_L和无标签样本集S_U同分布。

$\hat{\Phi} = \frac{1}{2}\mathop{\Sigma}\limits_{i,j}\mu_{ij}||\hat{Y}_i - \hat{Y}_j||^2$

$\mu_{ij}$ 代表两个样本 x_i 和 x_j之间的相似度。并定义：

$\mu_{i,j} = exp(-||x_i - x_j||^2/2\sigma^2)$

可以推导，

$\hat{\Phi} = Tr(\hat{Y}^TL\hat{Y})$

推导看原论文，矩阵论学得不好，没看懂。

半监督ELM-AE优化目标：

$\Gamma_{SS-ELM} = \mathop{\min}\limits_{\beta}\frac{1}{2}||\beta||^2 + \frac{C}{2}||Y_L - \hat{Y_L}|| + \frac{\lambda}{2}Tr(\hat{Y}^TL\hat{Y})$
其中，
$\hat{Y_i}, i = 1,...,l+u$

三、总结

这种半监督软测量方法，只能适用于连续过程，而且有标签样本和无标签样本要求同分布。
在一些批次过程，每个批次数据趋势都相近，目标变量只有在一个批次结束才能获得，这种情况下，如何利用一个批次内所有的过程变量呢？

参考：

秒客网

基于极限学习机的半监督软测量方法