Series是一种类似于一维数组的对象,是由一维数据(各种Numpy数据类型)以及一组与之相关的数据标签(即索引)组成。
In [1]: from pandas import Series In [2]: import pandas as pd In [3]: ser = Series([1,2,3,-1,-2]) In [4]: ser
Out[4]:
0 1
1 2
2 3
3 -1
4 -2
dtype: int64
Series的字符串表现形式为:索引在左边,值在右边。由于没有为数据指定索引,会自动创建一个0到N-1(N为数据的长度)的整数型索引。可以通过Series的values和index属性获取其数组表示形式和索引对象。
In [8]: ser.values
Out[8]: array([ 1, 2, 3, -1, -2]) In [9]: ser.index
Out[9]: RangeIndex(start=0, stop=5, step=1)
也可以创建对各个数据点进行标记的索引。
In [10]: ser1 = Series([2,3,-4,-5],index = ['a','b','c','d']) In [11]: ser1
Out[11]:
a 2
b 3
c -4
d -5
dtype: int64 In [12]: ser1.index
Out[12]: Index([u'a', u'b', u'c', u'd'], dtype='object')
与普通的Numpy数组相比,可以通过索引的方式选取Series中的单个或一组值。
In [13]: ser1['a']
Out[13]: 2 In [14]: ser1['b'] = 5 In [15]: ser1
Out[15]:
a 2
b 5
c -4
d -5
dtype: int64
进行算数运算都会保留索引和值之间的连接。
In [19]: ser1
Out[19]:
a 2
b 5
c -4
d -5
dtype: int64 In [20]: ser1 * 2
Out[20]:
a 4
b 10
c -8
d -10
dtype: int64 In [21]: ser1[ser1 > 0]
Out[21]:
a 2
b 5
dtype: int64
还可以将Series看成是一个定长的有序字典,因为它是索引值到数据值的一个映射。
In [22]: 'a' in ser1
Out[22]: True In [23]: 'e' in ser1
Out[23]: False
如果数据被存放在一个Python字典中,可以直接通过这个字典来创建Series。
In [32]: data = {'Tom':100,'Alia':98,'Abel':80} In [33]: datas = Series(data) In [34]: datas
Out[34]:
Abel 80
Alia 98
Tom 100
dtype: int64
如果只传入一个字典,则结果Series中的索引就是源字典的键。
In [35]: states = ['Call','Tom','Alia','Abel'] In [36]: sim = Series(datas,index=states) In [37]: sim
Out[37]:
Call NaN
Tom 100.0
Alia 98.0
Abel 80.0
dtype: float64
在pandas中,NaN表示缺失值,pandas的isnull和notnull函数用于检测缺失数据。
In [38]: pd.isnull(sim)
Out[38]:
Call True
Tom False
Alia False
Abel False
dtype: bool In [39]: pd.notnull(sim)
Out[39]:
Call False
Tom True
Alia True
Abel True
dtype: bool
Series对象本身及其索引都有一个name属性,该属性跟pandas其他的关键功能关系非常密切。
In [42]: sim.name = 'student' In [43]: sim.index.name = 'class' In [44]: sim
Out[44]:
class
Call NaN
Tom 100.0
Alia 98.0
Abel 80.0
Name: student, dtype: float64