使用weka进行聚类分析

时间：2024-03-24 08:10:37

1、将.xls文件转化为.arff格式

（1）首先，将.xls文件另存为.csv格式，然后使用weka explorer的预处理面板(preprocess)，导入.csv文件

使用weka进行聚类分析

使用weka进行聚类分析

首先，在weka的安装包里，将RunWeka.ini里面的编码格式改为UTF-8，避免出现中文乱码

使用weka进行聚类分析

（2）打开.csv文件时提示如下错误

错误一，.csv文件中存在特殊字符（'），替换它

使用weka进行聚类分析

使用weka进行聚类分析

错误二，.csv文件中自动换行，删除自动换行，并取消单元格里的换行

使用weka进行聚类分析

使用weka进行聚类分析

使用weka进行聚类分析

错误三，若提示错误，修改特殊字符也没有，也无换行表现，则将上一行单元格内容复制过来，再手动还原该单元格内容即可

导入成功如下所示

使用weka进行聚类分析

（3）将.csv格式转化为.arff格式

使用weka进行聚类分析

使用weka进行聚类分析

2、进行聚类分析

（1）打开.arff文件

使用weka进行聚类分析

（2）切换到“Cluster”，点击“choose”按钮选择“SimpleKMeans"。（K均值算法）

使用weka进行聚类分析

（3）点击上面的文本框，将numClusters修改为16（我们把这16102条实例聚成16类），seed参数是要设一个随机种子，依次产生一个随机数，用来得到k均值算法中第k个簇中心的位置。（seed值不同，所算的误差平方和的结果不同）

使用weka进行聚类分析

（4）选中Cluster Mode的Use training set,选中Store clusters for visualization（存储聚类可视化），点击start按钮

使用weka进行聚类分析

使用weka进行聚类分析

可在左下角的Result list下产生的结果上右键，在新窗口中浏览结果。

使用weka进行聚类分析

3、结果分析

（1）误差平方和：这是评价聚类好坏的标准，数值越小说明同一簇实例之间的距离越小

使用weka进行聚类分析

（2）列出了各个簇中心的位置。

使用weka进行聚类分析

（3）各个簇中实例的数目及百分比

使用weka进行聚类分析

（4）可视化聚类结果，在Result list列出的结果下右击Visualize cluster assignments。

使用weka进行聚类分析

使用weka进行聚类分析

（5）将聚类的结果保存为arff文件

使用weka进行聚类分析

result.arff文件

使用weka进行聚类分析

相关文章

