龟速机器学习总结----day1

机器学习主要工作大致分为以下几步，数据预处理，包括数据切分，特征选取，数据缺失值处理，来了解数据。接下来分割数据，分别分出训练集和测试集。第三步，选择模型，使用训练数据训练模型参数，再对测试数据进行预测，保存预测结果。第四步，对预测结果性能分析，根据分析结论调节参数。

pandas包处理数据，分析数据

numpy包提供高级的数学运算和高效的向量及矩阵运算能力

pandas.read_csv函数从互联网读取指定数据

查看data数据量和维度 data.shape

使用sklearn.cross_valiation中的train_test_split模块切分数据

训练模型参数前，标准化数据，保证每个维度的特征数据方差为1，均值为0.使得预测结果不会被某些过大的特征值主导（会不会说明什么问题？），这里使用sklearn.preprocessing中的X_train=StandardScaler.fit_transform(X_train)

觉得jupyter默认风格不太好看，搜了下如何个性化设置

pip install --jupyterthemes

jt -l#查询主题

……

期间遇到下载不成功的问题，除了是网渣渣，还有cannot remove****问题，解决***condone setuptools

还有就是要把打开的notbook关掉！

不怕遇上事！一会可以安心吃晚饭了：）龟速机器学习总结----day1

秒客网