将dataframe分割为训练集和测试集两部分

data = pd.read_csv("./dataNN.csv",',',error_bad_lines=False)#我的数据集是两列，一列字符串，一列为0,1的label
data = np.array(data)
random.shuffle(data)#随机打乱
#取前70%为训练集
allurl_fea = [d[0] for d in data]
df1=data[:int(0.7*len(allurl_fea))]
#将np.array转为dataframe，并对两列赋列名
df1=pd.DataFrame(df1,columns=['url','label'])
#写入csv
df1.to_csv("./train_samples.csv",index=False)
#剩余百分之30为测试集
df2=data[int(0.7*len(allurl_fea)):]
df2=pd.DataFrame(df2,columns=['url','label'])
df2.to_csv("./test_samples.csv",index=False)

#由于我的数据集中是二分类的，检测下两个类别分别的占比
# print(df2['label'].value_counts())

秒客网

将dataframe分割为训练集和测试集两部分

相关文章