【数据分析】嫡权法EWM

总结：基于熵值信息来计算出权重，数据具有客观性。

简介

计算步骤

案例

简介

熵值法原理
熵值法的基本思路是根据指标变异性的大小来确定客观权重信息熵:信息量的期望。可以理解成不确定性的大小，不确定性越大，信息熵也就越大

若某个指标的信息熵越小，表明指标值得变异程度越大，提供的信息量越多，在综合评价中所能起到的作用也越大，其权重也就越大。

1、背景说明

熵值法（熵权法）是一种研究指标权重的研究方法，比如有5个指标，分别为指标1到指标5，并且有很多样本（比如100个样本），即100行*5列数据，此时研究该5个指标的权重分别是多少。

但从上述可以看到，数据格式上为100个样本即100行数据。如果说当前是面板数据即比如100家公司分别5年，那么就是100*5=500行数据，依旧还是5个指标，即500行*5列数据。此时希望利用熵值法研究该5个指标的权重情况，应该如何处理呢？

2、数据格式

首先从数据格式上，应该类似下图，即有2列数据分别标识公司ID和年份，比如当前为100家公司分别5年，那么就有100*5行的数据。

3、面板数据如何进行熵值法？

熵值法的原理是利用‘熵’来计算权重，‘熵’用来标识信息的不确定性情况，熵越大意味着不确定性越大->信息量越小->权重越小，这是熵值法的原理。

从原理角度上看：

面板数据要想计算出5个指标的权重，也是利用‘熵’来计算，也即说明只要能计算出数据的‘熵’值，即可得到权重。而‘熵值’的计算上，并不会考虑是否为面板数据，因而从原理角度，面板数据与普通数据完全一致，直接放入分析即可。

从分析角度上看：

分析做法	说明
一次法	完全不考虑是否面板数据，直接与普通数据一样做一次分析即可
多次法	比如5年数据，先筛选出第1次的数据做1次，接着重复做另外4次，分别得到5次权重，然后将权重求平均值。

一次法，此种做法非常常见，即完全不考虑是否为面板数据，在原理上并没有任何问题。因为熵值法计算权重的原理是利用‘熵’值信息，相当于把100家公司5年即500个数字当成一个序列，计算该序列的‘熵’用于判断该500个数字的不确定性情况。最终得到权重。

另外也可分别筛选出某年数据后，基于100家公司即100个数字看成1个序列，计算该100个数字的不确定性情况，并且最终得到权重，此法称作多次法。