第三章——供机器读取的数据(CSV与JSON)

时间:2022-04-02 19:12:31
本书使用的文件、代码:https://github.com/huangtao36/data_wrangling


机器可读(machine readable)文件格式:
1、逗号分隔值(Comma-Separated Values, CSV)
2、JavaScript对象符号(JavaScript Object Notation, JSON)
3、可扩展标记语言(eXtensible Markup Language, XML)
 

第三章使用的数据文件:

第三章——供机器读取的数据(CSV与JSON)
 


一、CSV数据

  CSV文件:将数据列用逗号分隔的文件,文件扩展名为.csv
  TSV文件:将数据列用Tab分隔的文件(tab-separated values),文件扩展名为.csv或.tsv(要打开文件确定是何种类型的数据)
 
  用excel打开文件data-text.csv:
    第三章——供机器读取的数据(CSV与JSON) 
  用 Sublime打开data-text.csv:
    第三章——供机器读取的数据(CSV与JSON)

  Python代码1

import csv

csvfile = open('data-text.csv','rb') #打开文件,只读模式('wb'表示写)
reader = csv.reader(csvfile)  #读取数据 for row in reader:  #输出数据
print row

    在PyCharm中运行:

      第三章——供机器读取的数据(CSV与JSON)

    在控制台中使用命令行运行:

      第三章——供机器读取的数据(CSV与JSON)

      (运行代码文件只需要进入到其所在文件夹,输入:python 文件名)  

      第三章——供机器读取的数据(CSV与JSON)

  Python代码2

import csv

csvfile = open('data-text.csv','rb')
reader = csv.DictReader(csvfile) for row in reader:
print row

    在PyCharm中运行:

      第三章——供机器读取的数据(CSV与JSON)

  在控制台中使用命令行运行:

      第三章——供机器读取的数据(CSV与JSON)

  注:

    1、使用命令行编译时需要进入到代码文件所在文件夹,并且数据文件应与代码文件所在同一目录下(因为代码中没有指定数据文件路径)

    2、对比上面两个代码如下,对比输出,代码1输出的是列表格式,代码2输出的是字典格式

        代码1:reader = csv.reader(csvfile)  #读取数据

        代码2:reader = csv.DictReader(csvfile)


二、JSON数据

  .json为文件扩展名,极少数命名不规范的.js文件也可能包含的是JSON数据(.js文件一般是JavaScript文件 )

  JSON数据文件部分内容

    第三章——供机器读取的数据(CSV与JSON)

    JSON文件内容类似于Python中的字典,每一行都有键和值。

  Python代码

import json

json_data = open('data-text.json').read()

data = json.loads(json_data)

for item in data:
print item

    在PyCharm上运行

      第三章——供机器读取的数据(CSV与JSON)

  比较CSV与JOSN中Python代码的不同

    1、CSV以只读方式打开文件(文件变量),JSON读取文件的内容后还把其保存在变量json_data中(内容变量)

     2、CSV中open()返回的是一个文件对象,JSON中得到的是一个字符串

  运行type()来检测一下(使用命令行逐句输入(注意要在数据文件路径下运行)):

filename = 'data-text.json'

type(open(filename,'rb'))

type(open(filename),read())

    第三章——供机器读取的数据(CSV与JSON)

    由以上结果可以看出使用open()函数直接打开文件,获得的是一个文件类型的数据;而使用read()读取后获得的是一个字符串类型

第三章——供机器读取的数据(CSV与JSON)的更多相关文章

  1. 第三章——供机器读取的数据(XML)

    本书使用的文件.代码:https://github.com/huangtao36/data_wrangling 机器可读(machine readable)文件格式: 1.逗号分隔值(Comma-Se ...

  2. python数据处理(一)之供机器读取的数据 csv,json,xml

    代码与资料 https://github.com/jackiekazil/data-wrangling 1 csv 1.1导入csv数据 1.2将代码保存到文件中并在命令行中运行 2.json 2 导 ...

  3. 第三章:使用ListView展示数据

    一.ImageList:存储图像集合 Images 存储的所有图像 ImageSize 图像的大小 ColorDepth 颜色数 TransparentColor 被视为透明的颜色 先设置ColorD ...

  4. 数据库-第三章 关系数据库标准语言SQL-3.3 数据查询

    数据查询 例: 一.单表查询 1.定义 是指仅涉及一个表的查询 2.选择表中的若干列 查询指定列 例: 查询全部列 例: 查询经过计算的值 例: 3.选择表中的若干元组 消除取值重复的行 例: 查询满 ...

  5. SQL SERVER 2012 第三章 使用INSERT语句添加数据

    INSERT [TOP (<expression>) [PERCENT] [INTO] <tabular object>[(column list)][OUTPUT <o ...

  6. flask框架下读取mysql数据 转换成json格式API

    研究了一天 因为需要从数据库拿数据然后转换成json的格式 expose出去为 API 发现一条数据是容易,两条以上我居然搞了这么久 好歹出来了 先贴一下 后面更新 mysql的操作 比较容易了htt ...

  7. firedac数据集数据序列为JSON

    firedac数据集数据序列为JSON FIREDAC数据库引擎充分地考虑了跨平台和跨语言的支持. 因此,FIREDAC数据集可以序列为BIN\XML\JSON,三种格式. firedac数据集数据序 ...

  8. Laxcus大数据管理系统2&period;0(5)- 第三章 数据存取

    第三章 数据存取 当前的很多大数据处理工作,一次计算产生几十个GB.或者几十个TB的数据已是正常现象,驱动数百.数千.甚至上万个计算机节点并行运行也已经不足为奇.但是在数据处理的后面,对于这种在网络间 ...

  9. CentOS6安装各种大数据软件 第三章:Linux基础软件的安装

    相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础 ...

随机推荐

  1. Tomcat源码分析之—容器整体结构

    Tomcat有多个容器组成,而Container也就是容器与Connecter连接器是Tomcat最核心的两个模块,Connecter连接器接收客户端的请求,并根据客户端的请求传递给Container ...

  2. asp&period;net mvc 简单文件下载

    文件下载,先获取文件的路径,在通过招到文件的存放地址,通过return File(path, "text/plain", Url.Encode(name));,可以直接下载,但是必 ...

  3. 每日Scrum--No&period;5

    Yesterday:学习并编写代码 Today:组织小组开一次阶段性的总结会议:讨论需求分析中存在的问题:继续学习和编写代码:总结前阶段代码出现的问题 Problem:编程要注意很多的特殊情况,程序成 ...

  4. 李洪强iOS开发之【零基础学习iOS开发】【02-C语言】02-第一个C语言程序

    前言 前面已经唠叨了这么多理论知识,从这讲开始,就要通过接触代码来学习C语言的语法.学习任何一门语言,首先要掌握的肯定是语法.学习C语言语法的目的:就是能够利用C语言编写程序,然后运行程序跟硬件(计算 ...

  5. &lbrack;支付&rsqb;银联支付(对jdk有要求,最好直接使用jdk7)

    数据打包发送到银联服务端,银联返回一个html页面,打开这个页面会自动跳转到银联的支付界面,支付完成后会有前台通知和后台通知,需要注意的是后台通知地址的ip必须是公网ip(广域网ip).这个时候需要配 ...

  6. PHP安全外延

    接下来,我们讲一下:php语言与Apache等中间.MySQL等数据库结合使用时所产生的一些安全问题. 1.文件解析漏洞分析 2.编码注入漏洞分析 3.is_numeric漏洞分析

  7. oracle一些基本命令

    Oracle安装配置 设置四个账户及对应的密码 No. 用户名 口令 1 sys change_on_install 2 system manager 3 scott tiget 4 sh sh 上面 ...

  8. JQ高级

    一.选择器 css语法选择器 $('css3 选择器位‘) 索引匹配 $('div:eq(0)') $('div').eq(0) 内容 $('div:contains(标签文本内容)') // 注:采 ...

  9. &lbrack;转&rsqb;C&plus;&plus;中vector使用详细说明

    一.向量的介绍    向量 vector 是一种对象实体, 能够容纳许多其他类型相同的元素, 因此又被称为容器. 与string相同, vector 同属于STL(Standard Template ...

  10. DD-WRT自定义脚本更新花生壳DDNS

    N年以前买了一个tp-link 841n v7,一直用的还算可以吧,除了不定期重启路由器,不然网速慢的龟爬啊!这也是TP原厂固件的通病,于是刷了DD-WRT,话说DD确实很爽,除了功能强大之外,而且很 ...