python实现机器学习

1、数据预处理：iris数据介绍、数据加载、数据展示、维度确认

数据预处理：
iris数据加载
数据展示
确认数据维度
使用scikit-learn进行数据处理的四个关键点

1区分开属性数据与结果数据
2属性数据与结果数据都是量化的
3运算过程中，属性数据与结果数据的类型都是Numpy数组
4属性数据与结果数据的维度是对应的

iris数据加载
from sklearn import datasets
iris = datasets.load_iris()

数据展示
iris.data
iris.feature_name
iris.target
iris.target_name

确认数据类型与数据维度
print(type(iris.data))
print(type(iris.target))
print(iris.data.shape)
print(iris.target.shape

2、模型训练：分类问题、KNN模型、模型加载、训练、预测

分类问题场景：垃圾邮件、三类或两类以下的品种的分类
分类算法：K近邻、逻辑回归、决策树、朴素贝叶斯
调用KNN模型：from sklearn.neighbors import KNeighborsclassifier
创建一个KNN模型实例knn = KNeighborsClassifier(n_neighbors=1)
模型训练（学习）：knn.fit(X,y)
模型预测：knn.predict([[1,2,3,4]])

使用scikit-learn建模四步骤
调用需要使用的模型类
模型初始化，创建一个模型实例
模型训练
模型预测

分类问题介绍
分类：根据数据集目标的特征或者属性，划分到已有类别中
常用的分类算法：K近邻（KNN），逻辑回归、决策树、朴素贝叶斯

KNN
给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分类到这个类中。

sklearn建模四步骤
调用需要使用的模型类
模型初始化（创建一个实例）
模型训练
模型预测

from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
y = iris.target
print(X.shape)
print(y.shape)

knn_1 = KNeighborsClassifier(n_neighbors=1)
knn_1.fit(X,y)
knn_1.predict([[1,2,3,4]])

3、模型评估：准确率、数据分离、参数选择
模型评估
#模型训练之全数据集

from sklearn.neighbors import KNeighborsClassifier
knn_1 = KNeighborsClassifier(n_neighbors=1)
knn_1.fit(X,y)
y1_pre = knn_1.predict(X)
print(y1_pre.shape)

#模型评估之准确率
from sklearn.metrics import accuracy_score
print(accuracy_score(y,y1_pre))

# 模型评估比较不同K值模型的好坏
# 全数据集训练与预测
# 训练数据集、测试数据集分离
# 如何选择模型合适的参数，预测新数据对应结果

将整个数据集用于训练与测试，训练数据与测试数据相同导致的问题：
1）训练模型的最终目标是为了预测新数据对应的结果
2）最大化训练准确率通常会导致模型复杂化
3) 过度复杂模型容易导致训练数据的过度拟合

用所有的数据进行训练可能会适得其反，不仅模型复杂化，且准确度不一定更高
评估思想：将训练数据和测试数据分离
判断模型的准确率：比较预测结果和实际结果，正解的比例占到多少
from sklearn.metrics import accuracy_scoreprint(accuracy_score(y,y_pred))

数据分离：

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = 0.4)
定义一个k的范围：k_range = list(range(1,26))
定义变量存储多个数据：score_train = []
将单个数据存储在范围变量中：score_train.append(accuracy_score(y_train, y_train_pred))

定义一个循环：for k in k_range：
以线的形式绘制一个对比图：
import matplotlib.pyplot as plt
%matplotlib inline
plt.plot(k_range,score_test)
plt.xlabel('K(Knn model)')
plt.ylabel('test_accuracy')
当k=1的时候，模型是最复杂的

#在一定范围内寻求最优解

k_range = list(range(1,26))
#print(k_range)
scores_train = []
scores_test = []

for k in k_range:
knn = KNeighborsClassifier(n_neighbors=k)
knn.fit(X_train,y_train)
y_train_pred = knn.predict(X_train)
y_test_pred = knn.predict(X_test)
scores_train.append(accuracy_score(y_train,y_train_pred))
scores_test.append(accuracy_score(y_test,y_test_pred))

for k in k_range:
print(k,scores_train[k-1])

import matplotlib.pyplot as plt
#在该界面展示
%matplotlib inline
plt.plot(k_range,scores_train)
plt.xlabel('K(KNN mode)')
plt.ylabel('Training Accuracy')

4、模型评估: 逻辑回归、混淆矩阵、召回率、F1分数

逻辑回归：计算概率判断类别，应用场景二分类问题

准确率预测的局限性：准确度存在空准确率的问题（直接丢掉了负样本，只关注正样本）、没有体现实际分布情况、没有体现模型错误预测类型

混淆矩阵：又称为误差矩阵，衡量分类算法的准确程度，含6个指标

准确率 (TP+TN)/(TP+TN+FP+FN)
错误率（FP+FN）/(TP+TN+FP+FN)
召回率 TP/(TP+FN)
特异度 TN/(TN+FP)
精确率 TP/(TP+FP)
F1分数 2*精确率*召回率/(精确率+召回率)

逻辑回归模型：计算数据归属于某一类别的概率P，根据概率数值判断其类别。主要应用于二分类问题

逻辑回归模型
准确率进行模型评估有其局限性，只能看到整体，而不知细节。
比如1000个数据（900个1，100个0),全部预测为1 ，整体准确率是90%，而实际上0全部预测为1，错误率100%，而1的准确率是100%
逻辑回归模型主要应用场景就是二分类问题：比如是不是垃圾邮件，是猫还是狗
神经网络模型也是基于此原理实现的

import pandas as pd
path = 'data/pima-indians-diabetes.csv'
pima=pd.read_csv(path)
pima.head()

#X,y赋值

feature_name=['pregnant','insulin','bmi','age']
X = pima[feature_names]
y =pima.label

#确认维度
print(X.shape)
print(y.shape)

#数据分离

from sklearn.model_selection import train_test_split
X_trian,X_test,y_train,y_test = train_test_split(X，y,random_state=0)

#模型训练

from sklearn.linear_model import logisticregression
logReg = logisticRegression()
logReg.fit(X_train,y_train)
y_pred = logReg.predict(X_test)
from sklearn import metric
print("metrics.accuracy_score(y_test,y_pred)

##确认正负样本的数据量以及空准确率

y_test.value_counts()
y_test.mean()
1-y_test.mean()
max(y_test.mean(),1-y_test.mean())

#展示部分书记结果与预测结果
print(y_test.value[0:25]
pritn(y_pred[0:25]

#计算并展示混淆矩阵
confusion = metrics.confusion_metrix(y_test,y_pred)

#四个因子赋值

TN = confusion[0][0]
FP = confusion[0][1]
FN = confusion[1][0]
TP = confusion[1][1]

#指标计算

accuracy = (TP+TN)/(TP+TN+FP+FN)
mis_rate =(FP+FN)/（TP+TN+FP+FN)
recall =TP/(TP+FN)
specificity =TN(TN+FP)
precision = TP/(TP+FP)
f1_score = 2*precison*recall/(precision+recall)

秒客网

python实现机器学习

相关文章