[数据科学] 从text, json文件中提取数据

时间:2021-12-30 15:51:36

文本文件是基本的文件类型,不管是csv, xls, json, 还是xml等等都可以按照文本文件的形式读取。

#-*- coding: utf-8 -*-
fpath = "data/textfile.txt" f = open(fpath, 'r') ## 按照字符读取字符
first_char = f.read(1)
print "first char: ", first_char ## 改变文件对象的位置, 位置是按照bytesize计算的
## 如果不把位置转到开始,后来读取都是从现在的位置开始
f.seek(0) ## 读取文件所有的内容
all_chars = f.read()
print all_chars ## 按照行读数据
f.seek(0)
first_line = f.readline()
print 'first line: ',first_line ## 读取所有行
f.seek(0)
all_lines = f.readlines()
num_lines = len(all_lines)
print "number of lines: ", num_lines for i, line in f:
print i, line

在数据科学中,json也是最常用的文件形式之一,python对json有很好的支持。

import json

f = open('data/donut.json', 'r')
## 根据json的形式,读取出来的数据是list 或者 dict
data = json.load(f) print "type: ", type(data)
print data