Kaggle 项目之 Digit Recognizer

train.csv 和 test.csv 包含 1~9 的手写数字的灰度图片。每幅图片都是 28 个像素的高度和宽度，共 28*28=784 个像素点，每个像素值都在 0~255 之间。

train.csv 包含 785 列，因为第 1 列是手写数字的真实值，后面的 784 列都是像素值。除第一行外，有 42000 条数据。

test.csv 除了不包含 label 列，其它跟 train.csv 一样。除第一行外，有 28000 条数据。

Kaggle 项目之 Digit Recognizer

先来看看 train.csv 里的灰度图片是什么样子。

Python 代码：

import os

import pandas as pd

import matplotlib.pyplot as plt

os.chdir("E:\Kaggle\digit-recognizer")

img = pd.read_csv('train.csv')

img = img.values[0:11,1:]

fig = plt.figure() 

for i in range(0,9,1):

    print "\ncurrent num is: %d" % i

    px = img[i,:]

    pix = []

    for j in range(28):

        pix.append([])

        for k in range(28):

            pix[j].append(px[j*28+k])

    ax = fig.add_subplot(330+i+1)

    ax.imshow(pix)

plt.show()

train.csv 中前 9 个数字如下所示，跟文件中的 label 一样。

Kaggle 项目之 Digit Recognizer

KNN 示例代码：

import pandas as pd

import numpy as np

import time

from sklearn.cross_validation import cross_val_score

dataset = pd.read_csv("train.csv")

X_train = dataset.values[0:, 1:]

y_train = dataset.values[0:, 0]

X_test = pd.read_csv("test.csv").values

from sklearn.neighbors import KNeighborsClassifier

knn_clf=KNeighborsClassifier(n_neighbors=5, algorithm='kd_tree', weights='distance', p=3)

print("Training start")

start = time.clock()

knn_clf.fit(X_train,y_train)

elapsed = (time.clock() - start)

print("Training Time used:",int(elapsed/60) , "min")

result=knn_clf.predict(X_test)

result = np.c_[range(1,len(result)+1), result.astype(int)]

df_result = pd.DataFrame(result, columns=['ImageId', 'Label'])

df_result.to_csv('./results.knn.csv', index=False)

#end time

elapsed = (time.clock() - start)

print("Test Time used:",int(elapsed/60) , "min")

秒客网

Kaggle 项目之 Digit Recognizer

相关文章