Spark K-Means

时间:2022-09-27 12:42:04

K-Means(K均值)

介绍

K-Means是被应用的最广泛的基于划分的聚类算法,是一种硬聚类算法,属于典型的局域原型的目标函数聚类的代表。算法首先随机选择k个对象,每个对象初始地代表一个簇的平均值或者中心。对于剩余的每个对象,根据其到各个簇中心的距离,把他们分给距离最小的簇中心,然后重新计算每个簇平均值。重复这个过程,直到聚类准则则函数收敛。准则函数一般采用两种方式:第一种是全局误差函数,第二种是前后两次中心误差变化。

与分类不同,分类是监督学习,要求分类前明确各个类别,并断言每个元素映射到一个类别,而聚类是观察式学习,在聚类前可以不知道类别甚至不给定类别数量,是无监督学习的一种。目前聚类广泛应用于统计学、生物学、数据库技术和市场营销等领域,相应的算法也非常的多。

K-Means属于无监督学习,最大的特别和优势在于模型的建立不需要训练数据。在日常工作中,很多情况下没有办法事先获取到有效的训练数据,这时采用K-Means是一个不错的选择。但K-Means需要预先设置有多少个簇类(K值),这对于像计算某省份全部电信用户的交往圈这样的场景就完全的没办法用K-Means进行。对于可以确定K值不会太大但不明确精确的K值的场景,可以进行迭代运算,然后找出cost最小时所对应的K值,这个值往往能较好的描述有多少个簇类。

运用场景

1.商务上,帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群特征。

2.生物学上,用于推导植物和动物的分类,对基因的分类,获得对种群中固有结构的认识。

3.互联网上,用于对Web上的文档进行分类从而发现信息。

4.对一个游戏中的玩家进行分类(下面的案例)。

工作原理

针对包含n个对象的数据集合D以及初始化的聚类数目k,使用下面的算法。

1.从数据集合D中随机选择k个对象作为初始簇中心。

2.根据簇的中心值,把数据集合中的n个对象全部分给最“相似”的簇(“相似”根据距离长短来判断)。

3.根据簇的中心值,重新计算每个簇的中心值。

4.计算准则函数。

5.若准则函数满足阈值则退出,否则返回第二步继续。

Spark K-Means

输入数据说明

数据:玩家信息(月)

玩家(ID)

游戏时间(小时)

充值金额(元)

1

60

55

2

90

86

3

30

22

4

15

11

5

288

300

6

223

200

7

0

0

8

14

5

9

320

280

10

65

55

11

13

0

12

10

18

13

115

108

14

3

0

15

52

40

16

62

76

17

73

80

18

45

30

19

1

0

20

180

166

数据抽象为如下,含义为 游戏时间(小时),充值金额(元)

Spark K-Means

把玩家分为3类:

1.优质用户(高时长,高消费)

2.普通玩家(在线时长中等,消费中等)

3.不活跃用户    (在线时间短,消费低)

流程图

Spark K-Means

测试代码

import
org.apache.spark.mllib.clustering.KMeans

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.{SparkConf,
SparkContext}



object KMeansTest {

  def main(args: Array[String]) {

      val conf =
new SparkConf()

      val sc =
new SparkContext(conf)



    ))

    val parsedData =data.map(s => Vectors.dense(s.split(' ').map(_.trim.toDouble))).cache()



    //设置簇的个数为3

    val numClusters =3

    //迭代20次

    val numIterations=
20

    //运行10次,选出最优解

    val runs=10

    val clusters =KMeans.train(parsedData,
numClusters,
numIterations,runs)

    // Evaluateclustering by computing Within Set Sum of Squared Errors

    val WSSSE = clusters.computeCost(parsedData)

    println("WithinSet Sum of Squared Errors = "
+ WSSSE)



    val a21 =clusters.predict(Vectors.dense(57.0,30.0))

    val a22 =clusters.predict(Vectors.dense(0.0,0.0))



    //打印出中心点

    println("Clustercenters:");

    for (center <-clusters.clusterCenters) {

      println(" "+ center)

    }



    //打印出测试数据属于哪个簇

    println(parsedData.map(v=> v.toString() +
" belong to cluster :" +clusters.predict(v)).collect().mkString("\n"))

    println("预测第21个用户的归类为-->"+a21)

    println("预测第22个用户的归类为-->"+a22)

  }

}

提交代码脚本(standalone模式):

./bin/spark-submit

--name kmeans   \                         (项目名)

--class naiveBayes  \                     (主类名)

--master spark://master:7077  \           (使用集群管理器)

~/Desktop/kmeans.jar     \                  (代码包位置)

Hdfs://master:9000/KMeansTest.data             (args(0)的参数值)

输出结果说明

Spark K-Means

可以明显的看到:

1类用户为优质用户

2类用户为普通用户

3类用户为不活跃用户

Spark K-Means

21个用户的数据为(57,30)

22个的用户数据为(0,0)

分类是正确的

Spark K-Means

三个簇的聚集中心

Spark K-Means的更多相关文章

  1. KNN 与 K - Means 算法比较

    KNN K-Means 1.分类算法 聚类算法 2.监督学习 非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据 喂给它的数据集是无label的数据,是杂乱无章的,经过 ...

  2. 软件——机器学习与Python,聚类,K——means

    K-means是一种聚类算法: 这里运用k-means进行31个城市的分类 城市的数据保存在city.txt文件中,内容如下: BJ,2959.19,730.79,749.41,513.34,467. ...

  3. Apache Spark 2&period;2&period;0 中文文档 - Spark RDD(Resilient Distributed Datasets)论文 &vert; ApacheCN

    Spark RDD(Resilient Distributed Datasets)论文 概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...

  4. Apache Spark RDD(Resilient Distributed Datasets)论文

    Spark RDD(Resilient Distributed Datasets)论文 概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...

  5. Apache Spark 2&period;2&period;0 中文文档 - Spark RDD(Resilient Distributed Datasets)

    Spark RDD(Resilient Distributed Datasets)论文 概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...

  6. 快速查找无序数组中的第K大数?

    1.题目分析: 查找无序数组中的第K大数,直观感觉便是先排好序再找到下标为K-1的元素,时间复杂度O(NlgN).在此,我们想探索是否存在时间复杂度 < O(NlgN),而且近似等于O(N)的高 ...

  7. spark基础知识介绍2

    dataframe以RDD为基础的分布式数据集,与RDD的区别是,带有Schema元数据,即DF所表示的二维表数据集的每一列带有名称和类型,好处:精简代码:提升执行效率:减少数据读取; 如果不配置sp ...

  8. 网络费用流-最小k路径覆盖

    多校联赛第一场(hdu4862) Jump Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Ot ...

  9. numpy&period;ones&lowbar;like&lpar;a&comma; dtype&equals;None&comma; order&equals;&&num;39&semi;K&&num;39&semi;&comma; subok&equals;True&rpar;返回和原矩阵一样形状的1矩阵

    Return an array of ones with the same shape and type as a given array. Parameters: a : array_like Th ...

  10. 当我们在谈论kmeans(2)

        本稿为初稿,后续可能还会修改:如果转载,请务必保留源地址,非常感谢! 博客园:http://www.cnblogs.com/data-miner/ 其他:建设中- 当我们在谈论kmeans(2 ...

随机推荐

  1. 【AR实验室】OpenGL ES绘制相机(OpenGL ES 1&period;0版本)

    0x00 - 前言 之前做一些移动端的AR应用以及目前看到的一些AR应用,基本上都是这样一个套路:手机背景显示现实场景,然后在该背景上进行图形学绘制.至于图形学绘制时,相机外参的解算使用的是V-SLA ...

  2. iOS的生命周期

    iOS应用程序一般都是由自己编写的代码和系统框架组成.系统框架提供了一些基本的infrastructure给APP来运行,而开发者则自己编写代码定制APP的外观和行为,了解iOS infrastruc ...

  3. ECharts中文显示为Unicode码

    后台遍历出的数据,在ECharts的js中引用为Unicode码 解决方案: <s:property>标签的escape属性默认值为true,即不解析html代码,直接将其输出. 若想要输 ...

  4. Linux系统针对网卡中断的优化处理

    摘要: 中断: 当网卡接收到数据包后,会触发硬中断,通知CPU来收包.硬中断是一个CPU和网卡交互的过程.这其实会消耗CPU资源.特别是在使用速度极快的万兆网卡 之后,大量的网络交互使得CPU很大一部 ...

  5. quagga源码分析--路由信息处理zebra-rib

    对于各个协议生成的路由信息的处理属于quagga中非常重要的一个功能,如何在内核进行路由增加,更新,删除是一个复杂的过程. quagga在thread任务调度中加入了一种工作队列,work_queue ...

  6. 用bat文件启动mongodb

    bat文件是dos下的批处理文件.批处理文件是无格式的文本文件,它包含一条或多条命令.它的文件扩展名为 .bat 或 .cmd.在命令提示下键入批处理文件的名称,或者双击该批处理文件,系统就会调用cm ...

  7. oracle语句insert into select如何加后续插入条件

    oracle语句insert into select如何加后续插入条件 2014-01-21 10:48匿名  分类:其他编程语言 | 浏览 2746 次 oracle中有批量插入语句insert i ...

  8. MySQL(四)字段及常用函数

    一.字段 数据库表中的每一行叫做一个“记录”,每一个记录包含这行中的所有信息,但记录在数据库中并没有专门的记录名,常常用它所在的行数表示这是第几个记录. 在数据库中存放在表行列交叉处的数据叫做“值”, ...

  9. Java 正则表达式格式化时间显示

    /* * test.java * Version 1.0.0 * Created on 2017年12月16日 * Copyright ReYo.Cn */ package reyo.sdk.util ...

  10. Mac上获取文件md5 值

    mac 上获取一个文件的md5值如下 在terminal 上输入下面命令行即可: 方法一: //备注 AccountPassword/check 是全路径 也可以相对路径,我这里是相对路径,用来测试用 ...