使用weka进行聚类分析

时间:2024-03-24 08:10:37


1、将.xls文件转化为.arff格式

  (1)首先,将.xls文件另存为.csv格式,然后使用weka explorer的预处理面板(preprocess),导入.csv文件

使用weka进行聚类分析

使用weka进行聚类分析
首先,在weka的安装包里,将RunWeka.ini里面的编码格式改为UTF-8,避免出现中文乱码

使用weka进行聚类分析

(2)打开.csv文件时提示如下错误
错误一,.csv文件中存在特殊字符('),替换它
使用weka进行聚类分析
使用weka进行聚类分析

错误二,.csv文件中自动换行,删除自动换行,并取消单元格里的换行

使用weka进行聚类分析

使用weka进行聚类分析

使用weka进行聚类分析

错误三,若提示错误,修改特殊字符也没有,也无换行表现,则将上一行单元格内容复制过来,再手动还原该单元格内容即可

导入成功如下所示
使用weka进行聚类分析
(3)将.csv格式转化为.arff格式

使用weka进行聚类分析

使用weka进行聚类分析

2、进行聚类分析

(1)打开.arff文件

使用weka进行聚类分析

(2)切换到“Cluster”,点击“choose”按钮选择“SimpleKMeans"。(K均值算法)
使用weka进行聚类分析

(3)点击上面的文本框,将numClusters修改为16(我们把这16102条实例聚成16类),seed参数是要设一个随机种子,依次产生一个随机数,用来得到k均值算法中第k个簇中心的位置。(seed值不同,所算的误差平方和的结果不同)

使用weka进行聚类分析

(4)选中Cluster Mode的Use training set,选中Store clusters for  visualization(存储聚类可视化),点击start按钮
使用weka进行聚类分析

使用weka进行聚类分析


可在左下角的Result list下产生的结果上右键,在新窗口中浏览结果。


使用weka进行聚类分析

3、结果分析


(1)误差平方和:这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小
使用weka进行聚类分析

(2)列出了各个簇中心的位置。

使用weka进行聚类分析
(3)各个簇中实例的数目及百分比
使用weka进行聚类分析
(4)可视化聚类结果,在Result list列出的结果下右击Visualize cluster assignments。
使用weka进行聚类分析

使用weka进行聚类分析

(5)将聚类的结果保存为arff文件

使用weka进行聚类分析

result.arff文件
使用weka进行聚类分析