Series

时间:2023-11-24 09:38:08

Series是一种类似于一维数组的对象,是由一维数据(各种Numpy数据类型)以及一组与之相关的数据标签(即索引)组成。

 In [1]: from pandas import Series

 In [2]: import pandas as pd

 In [3]: ser = Series([1,2,3,-1,-2])

 In [4]: ser
Out[4]:
0 1
1 2
2 3
3 -1
4 -2
dtype: int64

Series的字符串表现形式为:索引在左边,值在右边。由于没有为数据指定索引,会自动创建一个0到N-1(N为数据的长度)的整数型索引。可以通过Series的values和index属性获取其数组表示形式和索引对象。

 In [8]: ser.values
Out[8]: array([ 1, 2, 3, -1, -2]) In [9]: ser.index
Out[9]: RangeIndex(start=0, stop=5, step=1)

也可以创建对各个数据点进行标记的索引。

 In [10]: ser1 = Series([2,3,-4,-5],index = ['a','b','c','d'])

 In [11]: ser1
Out[11]:
a 2
b 3
c -4
d -5
dtype: int64 In [12]: ser1.index
Out[12]: Index([u'a', u'b', u'c', u'd'], dtype='object')

与普通的Numpy数组相比,可以通过索引的方式选取Series中的单个或一组值。

In [13]: ser1['a']
Out[13]: 2 In [14]: ser1['b'] = 5 In [15]: ser1
Out[15]:
a 2
b 5
c -4
d -5
dtype: int64

进行算数运算都会保留索引和值之间的连接。

 In [19]: ser1
Out[19]:
a 2
b 5
c -4
d -5
dtype: int64 In [20]: ser1 * 2
Out[20]:
a 4
b 10
c -8
d -10
dtype: int64 In [21]: ser1[ser1 > 0]
Out[21]:
a 2
b 5
dtype: int64

还可以将Series看成是一个定长的有序字典,因为它是索引值到数据值的一个映射。

 In [22]: 'a' in ser1
Out[22]: True In [23]: 'e' in ser1
Out[23]: False

如果数据被存放在一个Python字典中,可以直接通过这个字典来创建Series。

 In [32]: data = {'Tom':100,'Alia':98,'Abel':80}

 In [33]: datas = Series(data)

 In [34]: datas
Out[34]:
Abel 80
Alia 98
Tom 100
dtype: int64

如果只传入一个字典,则结果Series中的索引就是源字典的键。

 In [35]: states = ['Call','Tom','Alia','Abel']

 In [36]: sim = Series(datas,index=states)

 In [37]: sim
Out[37]:
Call NaN
Tom 100.0
Alia 98.0
Abel 80.0
dtype: float64

在pandas中,NaN表示缺失值,pandas的isnull和notnull函数用于检测缺失数据。

 In [38]: pd.isnull(sim)
Out[38]:
Call True
Tom False
Alia False
Abel False
dtype: bool In [39]: pd.notnull(sim)
Out[39]:
Call False
Tom True
Alia True
Abel True
dtype: bool

Series对象本身及其索引都有一个name属性,该属性跟pandas其他的关键功能关系非常密切。

 In [42]: sim.name = 'student'

 In [43]: sim.index.name = 'class'

 In [44]: sim
Out[44]:
class
Call NaN
Tom 100.0
Alia 98.0
Abel 80.0
Name: student, dtype: float64