【十大算法实现之KNN】KNN算法实例(含测试数据和源码)

时间:2021-07-05 00:51:15

KNN算法基本的思路是比较好理解的,今天根据它的特点写了一个实例,我会把所有的数据和代码都写在下面供大家参考,不足之处,请指正。谢谢!

update:工程代码全部在本页面中,测试数据已丢失,建议去UCI Dataset中找一个自行测试一下。

几点说明:

1.KNN中的K=5;

2.在计算权重时,采用的是减去函数{1,0.8,0.6,0.4,0.2},当然你也可以采用反函数或高斯函数;

3.5%作为测试集(decision.txt),95%作为训练集(training.txt);

4.在计算costfun之前,对所有的属性进行了归一化,由于这里不知道数据集每个属性代表的含义,所以就一视同仁,实际情况下,应该具体问题具体分析;

【十大算法实现之KNN】KNN算法实例(含测试数据和源码)

XBWKNN.java

package XBWKNN;

import java.io.IOException;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.List; /**
* KNN算法
* @author XBW
* @date 2014年8月16日
*/ public class XBWKNN{
public final static int KofKNN=5;
public final static double weight[]={1,0.9,0.7,0.4,0.1}; //减法函数y=1-0.2*x /**
* knn
* @param data
* @param ds
* @return ans
*/
public static int knn(Data data,DataSet ds){
int ans = 0;
List<Data> dis=calcDis(data,ds);
ans=calcKDis(data,dis);
return ans;
} /**
* 计算训练集中所有向量的距离,排序之后取前K个
* @param data
* @param ds
* @return
*/
@SuppressWarnings("null")
public static List<Data>calcDis(Data data,DataSet ds){
List<Data> anslist =new ArrayList<Data>();
double dx1=data.x1;
double dx2=data.x2;
double dx3=data.x3;
for(int i=0;i<ds.ds.size();i++){
double x1=ds.ds.get(i).x1;
double x2=ds.ds.get(i).x2;
double x3=ds.ds.get(i).x3;
ds.ds.get(i).costfun=Math.sqrt((dx1-x1)*(dx1-x1)+(dx2-x2)*(dx2-x2)+(dx3-x3)*(dx3-x3));
anslist.add(ds.ds.get(i));
}
Collections.sort(anslist,new Comparator<Data>(){
public int compare(Data o1, Data o2) {
Double s=o1.costfun-o2.costfun;
if(s<0)
return -1;
else
return 1;
}
});
return anslist;
} /**
* 按一定的权重计算出前K个
* @param data
* @param ds
* @return
*/
public static int calcKDis(Data data,List<Data> anslist){
Double[] anstype={0.0,0.0,0.0,0.0};
for(int i=0;i<KofKNN;i++){
if(anslist.get(i).type==1){
anstype[1]+=weight[i];
}
else if(anslist.get(i).type==2){
anstype[2]+=weight[i];
}
if(anslist.get(i).type==3){
anstype[3]+=weight[i];
}
}
Double maxt=-1.0;
int tag=1;
for(int i=1;i<=3;i++){
if(maxt<anstype[i]){
tag=i;
maxt=anstype[i];
}
}
return tag;
} public static void main(String[] args) throws IOException{
DataSet ds=new DataSet();
DataTest dt=new DataTest(); int correct=0;
for(int i=0;i<dt.dt.size();i++){
Data data=dt.dt.get(i);
int result=knn(data,ds);
if(result==data.type){
correct++;
}
}
System.out.println("total test num :"+dt.dt.size());
System.out.println("correct test num :"+correct);
System.out.println("ratio :"+correct/(double)dt.dt.size());
}
}

Datatest.java

package XBWKNN;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List; /**
* 测试数据
* @author XBW
* @date 2014年8月16日
*/ public class DataTest{
String defaultpath="D:\\MachineLearning\\十大算法\\KNN\\knncode\\decision.txt";
List<Data> dt; @SuppressWarnings("null")
public DataTest() throws IOException{
List<Data> dset = new ArrayList<Data>();
File ds=new File(defaultpath);
@SuppressWarnings("resource")
BufferedReader br = new BufferedReader(new FileReader(ds));
String tsing;
double max1=-1;
double max2=-1;
double max3=-1;
while((tsing=br.readLine())!=null){
String[] dlist=tsing.split(" ");
Data data=new Data();
data.x1=Double.parseDouble(dlist[0]);
data.x2=Double.parseDouble(dlist[1]);
data.x3=Double.parseDouble(dlist[2]);
data.type=Integer.parseInt(dlist[3]);
dset.add(data); if(data.x1>max1){
max1=data.x1;
}
if(data.x2>max2){
max2=data.x2;
}
if(data.x3>max3){
max3=data.x3;
}
}
dset=normalization(dset,max1,max2,max3);
this.dt=dset;
} public List<Data> normalization(List<Data> dset,double m1,double m2,double m3){
for(int i=0;i<dset.size();i++){
dset.get(i).x1/=m1;
dset.get(i).x2/=m2;
dset.get(i).x3/=m3;
}
return dset;
}
}

DataSet.java

package XBWKNN;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List; /**
* 训练数据
* @author XBW
* @date 2014年8月16日
*/ public class DataSet{
String defaultpath="D:\\MachineLearning\\十大算法\\KNN\\knncode\\training.txt";
List<Data> ds; @SuppressWarnings("null")
public DataSet() throws IOException{
List<Data> dset =new ArrayList<Data>();
File ds=new File(defaultpath);
@SuppressWarnings("resource")
BufferedReader br = new BufferedReader(new FileReader(ds));
String tsing;
double max1=-1;
double max2=-1;
double max3=-1;
while((tsing=br.readLine())!=null){
String[] dlist=tsing.split(" ");
Data data=new Data();
data.x1=Double.parseDouble(dlist[0]);
data.x2=Double.parseDouble(dlist[1]);
data.x3=Double.parseDouble(dlist[2]);
data.type=Integer.parseInt(dlist[3]);
dset.add(data); if(data.x1>max1){
max1=data.x1;
}
if(data.x2>max2){
max2=data.x2;
}
if(data.x3>max3){
max3=data.x3;
}
}
dset=normalization(dset,max1,max2,max3);
this.ds=dset;
} public List<Data> normalization(List<Data> dset,double m1,double m2,double m3){
for(int i=0;i<dset.size();i++){
dset.get(i).x1/=m1;
dset.get(i).x2/=m2;
dset.get(i).x3/=m3;
}
return dset;
}
}

Data.java

package XBWKNN;

/**
* 一条数据
* @author XBW
* @date 2014年8月16日
*/ public class Data{
Double x1;
Double x2;
Double x3;
Double costfun;
int type;
}

output:

【十大算法实现之KNN】KNN算法实例(含测试数据和源码)

【十大算法实现之KNN】KNN算法实例(含测试数据和源码)的更多相关文章

  1. 机器学习——十大数据挖掘之一的决策树CART算法

    本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是机器学习专题的第23篇文章,我们今天分享的内容是十大数据挖掘算法之一的CART算法. CART算法全称是Classification ...

  2. 备战秋招之十大排序——O&lpar;nlogn&rpar;级排序算法

    时间复杂度O(nlogn)级排序算法 五.希尔排序 首批将时间复杂度降到 O(n^2) 以下的算法之一.虽然原始的希尔排序最坏时间复杂度仍然是O(n^2),但经过优化的希尔排序可以达到 O(n^{1. ...

  3. 备战秋招之十大排序——O&lpar;n&rpar;级排序算法

    时间复杂度O(n)级排序算法 九.计数排序 前文说到,19591959 年 77 月,希尔排序通过交换非相邻元素,打破了 O(n^2)的魔咒,使得排序算法的时间复杂度降到了 O(nlog n) 级,此 ...

  4. Redis系列(十二):数据结构SortedSet跳跃表中基本操作命令和源码解析

    1.SkipList Redis的sortedSet数据结构是有序不重复的(索引为唯一的,数据(score)却可以重复), 跳表是redis的一个核心组件,也同时被广泛地运用到了各种缓存地实现当中,它 ...

  5. 【十大经典数据挖掘算法】kNN

    [十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 1. 引言 *数据挖掘会议ICDM ...

  6. 机器学习十大算法之KNN(K最近邻,k-NearestNeighbor&rpar;算法

    机器学习十大算法之KNN算法 前段时间一直在搞tkinter,机器学习荒废了一阵子.如今想重新写一个,发现遇到不少问题,不过最终还是解决了.希望与大家共同进步. 闲话少说,进入正题. KNN算法也称最 ...

  7. 机器学习十大算法 之 kNN(一)

    机器学习十大算法 之 kNN(一) 最近在学习机器学习领域的十大经典算法,先从kNN开始吧. 简介 kNN是一种有监督学习方法,它的思想很简单,对于一个未分类的样本来说,通过距离它最近的k个&quot ...

  8. 【十大经典数据挖掘算法】PageRank

    [十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 我特地把PageRank作为[十大经 ...

  9. 【十大经典数据挖掘算法】EM

    [十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 1. 极大似然 极大似然(Maxim ...

随机推荐

  1. 从手工测试转型web自动化测试继而转型成专门做自动化测试的学习路线。

    在开始之前先自学两个工具商业web自动化测试工具请自学QTP:QTP的学习可以跳过,我是跳过了的.开源web自动化测试工具请自学Selenium:我当年是先学watir(耗时1周),再学seleniu ...

  2. 提升网站性能之设置gzip

    tomcat如何设置gzip: http://www.tuicool.com/articles/aMRRFre http://blog.csdn.net/xuefeng0707/article/det ...

  3. visual studio 一直显示正在准备解决方案

    首先重启电脑,无法解决的情况下执行以下步骤: Kill Visual Studio Open Visual Studio without loading a solution Disable Ankh ...

  4. ThinkPhp学习01

    原文:ThinkPhp学习01 一.ThinkPHP的介绍           MVC  M - Model 模型                工作:负责数据的操作  V - View  视图(模板 ...

  5. spring之json数据的接受和发送

    配置spring对json的注解方式. <!-- 启动Spring MVC的注解功能,完成请求和注解POJO的映射 --> <bean class="org.springf ...

  6. ArcGIS API for JavaScript 4&period;2学习笔记&lbrack;4&rsqb; 第二章其余感兴趣的例子

    先马克,估计要用到的有: 视图存档 2D地图添加指南针 视图移动 鹰眼 2D3D视图同步.同视图不同数据同步 以后实战的时候再仔细研究研究.

  7. python&lowbar;求相邻数

    什么是相邻数? 比如5,相邻数为4和6,和5相差1的数,连续相差为1的一组数 需求: 遍历inputList 所有数字,取出所有数字,判断是否有相邻数, 不相邻数字 和 相邻数字 都以 “数组”形式 ...

  8. MongoDB增删改查操作详解

    一.插入 MongoDB的插入操作很简单,使用insert方法,这里演示从创建数据库.创建集合到插入文档.查询文档. 集合创建方法参数说明: size:集合最大空间 max:集合最多文档数量 (超出s ...

  9. JMeter获取CSV文件行数

    import java.io.BufferedReader; import java.io.FileReader; BufferedReader br=new BufferedReader(new F ...

  10. 面试之路(28)-反转链表(reverse ListNode)

    反转链表: java类 public class ListNode{ int key; ListNode next; } 思路分析: 需要三个指针,current,prev和next. current ...