Spark Mllib逻辑回归算法分析

时间:2022-03-13 09:39:05

原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3816289.html

本文以spark 1.0.0版本MLlib算法为准进行分析

一、代码结构

逻辑回归代码主要包含三个部分

1、classfication:逻辑回归分类器

2、optimization:优化方法,包含了随机梯度、LBFGS两种算法

3、evaluation:算法效果评估计算

  Spark Mllib逻辑回归算法分析

二、逻辑回归分类器

1、LogisticRegressionModel类

 (1) 根据训练数据集得到的weights来预测新的数据点的分类

  Spark Mllib逻辑回归算法分析

 (2)预测新数据分类

  采用   Spark Mllib逻辑回归算法分析

其中w为权重向量weightMatrix,X表示预测数据dataMatrix,a表示intercept,intercept默认为0.0。

threshold变量用来控制分类的阈值,默认值为0.5。表示如果预测值<threshold则为分类0.0,否则为1.0

  如果threshold设置为空,这会输出实际值  

Spark Mllib逻辑回归算法分析

2、LogisticRegressionWithSGD类

  此类主要接收外部数据集、算法参数等输入进行训练得到一个逻辑回归模型LogisticRegressionModel

  接收的输入参数包括:

    input:输入数据集合,分类标签lable只能是1.0和0.0两种,feature为double类型

    numIterations:迭代次数,默认为100

    stepSize:迭代步伐大小,默认为1.0

    miniBatchFraction:每次迭代参与计算的样本比例,默认为1.0

    initialWeights:weight向量初始值,默认为0向量

    regParam:regularization正则化控制参数,默认值为0.0

  Spark Mllib逻辑回归算法分析

   在LogisticRegressionWithSGD中可以看出它使用了GradientDescent(梯度下降)来优化weight参数的

  Spark Mllib逻辑回归算法分析

3、GeneralizedLinearModel类

  LogisticRegressionWithSGD中的run方法会调用GeneralizedLinearModel中的run方法来训练训练数据

  在run方法中最关键的就是optimize方法,正是通过它来求得weightMatrix的最优解

  Spark Mllib逻辑回归算法分析

三、优化方法

  逻辑回归采用了梯度下降算法来寻找weight的最优解

  逻辑回归cost function

    Spark Mllib逻辑回归算法分析

  其中:

    Spark Mllib逻辑回归算法分析

  对J(Θ)求导数后得到梯度为:

        Spark Mllib逻辑回归算法分析

  1、GradientDescent类

    负责梯度下降算法的执行,分为Gradient梯度计算与weight update两个步骤来计算   

    Spark Mllib逻辑回归算法分析

  2、Gradient类

    负责算法梯度计算,包含了LogisticGradient、LeastSquaresGradient、HingeGradient三种梯度计算实现,本文主要介绍LogisticGradient的实现:

    Spark Mllib逻辑回归算法分析

    其中data为公式中的x,label为公式中的y,weights为公式中的Θ

        gradient就是对J(Θ)求导的计算结果, loss为J(Θ)的计算结果

  3、Updater类

    负责weight的迭代更新计算,包含了SimpleUpdater、L1Updater、SquaredL2Updater三种更新策略

    (1)SimpleUpdater

      没有使用regularization,weights更新规则为:

      Spark Mllib逻辑回归算法分析

      其中:iter表示这是执行的第几次迭代

      Spark Mllib逻辑回归算法分析

    (2)L1Updater

      使用了L1 regularization(R(w) = ||w||),利用soft-thresholding方法求解,weight更新规则为:

      Spark Mllib逻辑回归算法分析

      Spark Mllib逻辑回归算法分析

      signum是符号函数,它的取值如下:

      Spark Mllib逻辑回归算法分析

      Spark Mllib逻辑回归算法分析

    

    (3)SquaredL2Updater

      使用了L2 regularization(R(w) = 1/2 ||w||^2),weights更新规则为:

      Spark Mllib逻辑回归算法分析

      

      Spark Mllib逻辑回归算法分析

  注意:Mllib中的逻辑回归算法默认使用的SimpleUpdater

四、算法效果评估

  BinaryClassificationMetrics类中包含了多种算法算法效果评估计算方法:

  相关 不相关
检索到 true positives (tp) false positives(fp)
未检索到 false negatives(fn) true negatives (tn)

  

   1、ROC(receiver operating characteristic接收者操作特征)    

    Spark Mllib逻辑回归算法分析

     Spark Mllib逻辑回归算法分析

   调整分类器threshold取值,以FPR为横坐标,TPR为纵坐标做ROC曲线

   Area Under roc Curve(AUC):处于ROC curve下方的那部分面积的大小

   通常,AUC的值介于0.5到1.0之间,较大的AUC代表了较好的性能

   Spark Mllib逻辑回归算法分析

   2、precision-recall(准确率-召回率)

    Spark Mllib逻辑回归算法分析

    准确率和召回率是互相影响的,理想情况下肯定是做到两者都高,

    但是一般情况下准确率高、召回率就低,召回率低、准确率高,

当然如果两者都低,那是什么地方出问题了

   3、F-Measure

   Spark Mllib逻辑回归算法分析

   在precision与recall都要求高的情况下,可以用F来衡量   

原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3816289.html

  

Spark Mllib逻辑回归算法分析的更多相关文章

  1. Spark ML逻辑回归

    import org.apache.log4j.{Level, Logger} import org.apache.spark.ml.classification.LogisticRegression ...

  2. Spark LogisticRegression 逻辑回归之建模

    导入包 import org.apache.spark.sql.SparkSession import org.apache.spark.sql.Dataset import org.apache.s ...

  3. Spark 多项式逻辑回归&lowbar;&lowbar;多分类

    package Spark_MLlib import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.{B ...

  4. Spark 多项式逻辑回归&lowbar;&lowbar;二分类

    package Spark_MLlib import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.{L ...

  5. Spark 机器学习------逻辑回归

    package Spark_MLlib import javassist.bytecode.SignatureAttribute.ArrayType import org.apache.spark.s ...

  6. Spark LR逻辑回归中RDD转DF中VectorUDT设置

    System.setProperty("hadoop.home.dir", "C:\\hadoop-2.7.2"); val spark = SparkSess ...

  7. Spark LogisticRegression 逻辑回归之简介

    LogisticRegression简介

  8. 《Spark MLlib机器学习实践》内容简介、目录

      http://product.dangdang.com/23829918.html Spark作为新兴的.应用范围最为广泛的大数据处理开源框架引起了广泛的关注,它吸引了大量程序设计和开发人员进行相 ...

  9. Spark MLlib回归算法------线性回归、逻辑回归、SVM和ALS

    Spark MLlib回归算法------线性回归.逻辑回归.SVM和ALS 1.线性回归: (1)模型的建立: 回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多 ...

随机推荐

  1. 基于uploadify&period;js实现多文件上传和上传进度条的显示

    uploadify是JQuery的一个插件,主要实现文件的异步上传功能,可以自定义文件大小限制.文件类型.是否自动上传等属性,可以显示上传的进度条.官网地址是http://www.uploadify. ...

  2. InputStream和OutputStream 何时使用

    原文引自:http://blog.csdn.net/fyxxq/article/details/7071978 记得刚学习程序流一章的时候,就是搞不清楚In和Out,不知道什么时候用in什么时候用ou ...

  3. Codeforces Round &num;416&lpar;Div&period; 2&rpar;-811A&period;。。。 811B&period;。。。 811C&period;dp。。。不会

    CodeForces - 811A A. Vladik and Courtesy time limit per test 2 seconds memory limit per test 256 meg ...

  4. Java开发笔记(八十三)利用注解技术检查空指针

    注解属于比较高级的Java开发技术,前面介绍的内置注解专用于编译器检查代码,另外一些注解则由各大框架定义与调用,像Web开发常见的Spring框架.Mybatis框架,Android开发常见的Butt ...

  5. 调试Windows Service

    调试Windows Service 使用一般的调试方法调试不了Windows Servers,所以参考了一些调试方法 我服务源码中使用了Timer,注意不能使用工具箱内的Timer,用System.T ...

  6. Clipboard Action for Mac(智能剪贴板历史管理器)破解版安装

    1.软件简介    Clipboard Action 是 macOS 系统上一款智能剪贴板历史管理器,它允许剪贴板历史中的每一段内容执行操作.使用 AppleScript 或 Automator 工作 ...

  7. linux inode 详解 &sol; 线上inode爆满解决方案

    本文大量参考阮一峰大神博客,整理笔记 之所以写inode文章是由于一次线上问题,引发对inode深入的思考. 磁盘的inode监控与磁盘空间的监控同等重要,线上服务器一定要做好磁盘inode与磁盘空间 ...

  8. uitextfield 设置为密码框显示

    uitextfield 设置为密码框显示: 在xib中,将文本secure的复选框选中即可.

  9. 详谈redis优化配置和redis&period;conf

    1. Redis.conf 配置参数: #是否作为守护进程运行 daemonize yes #如以后台进程运行,则需指定一个pid,默认为/var/run/redis.pid pidfile redi ...

  10. SVN库迁移整理方法----官方推荐方式

    以下是subversion官方推荐的备份方式. 关闭所有运行的进程,并确认没有程序在访问存储库(如 httpd.svnserve 或本地用户在直接访问). 备份svn存储库 #压缩备份 svnadmi ...