数据分析Pandas专栏---第二章<Pandas四个关键词>-正文:

时间:2024-02-22 13:23:26

在Pandas中,有三个重要的概念:字段(Columns)、索引(Index)、行(row)和序列(Series)。让我们来看看它们之间的区别:

字段(Columns):

字段是DataFrame中的列,表示数据框中的不同变量或特征。每个字段都有一个名称,可以通过字段名称访问和操作数据。

示例:

import pandas as pd

data = {'Name': ['John', 'Emma', 'Mike'],
        'Age': [25, 28, 30],
        'City': ['New York', 'London', 'Sydney']}

df = pd.DataFrame(data)
print(df)

输出:

   Name  Age      City
0   John   25  New York
1   Emma   28    London
2   Mike   30    Sydney

在这个示例中,'Name'、'Age'和'City'是DataFrame中的三个字段

索引(Index):

索引是Pandas中用于标识和访问数据的标签。它允许我们按行访问和操作DataFrame中的数据。索引可以是整数、日期时间、标签等。每个DataFrame都有一个默认的整数索引,可以自定义或重置索引。

import pandas as pd

data = {'Name': ['John', 'Emma', 'Mike'],
        'Age': [25, 28, 30],
        'City': ['New York', 'London', 'Sydney']}

df = pd.DataFrame(data)
print(df.index)

输出:

RangeIndex(start=0, stop=3, step=1)

在这个示例中,索引是一个RangeIndex对象,它表示行索引范围从0到2(共3行)。

行(row):


行是DataFrame中的每个记录或观察值。每一行都通过索引进行标识。行提供了对数据的行维度的标识和访问功能。我们可以按行访问和操作DataFrame中的数据。


示例:

import pandas as pd


data = {'Name': ['John', 'Emma', 'Mike'],
'Age': [25, 28, 30],
'City': ['New York', 'London', 'Sydney']}


df = pd.DataFrame(data)
row = df.iloc[0]
print(row)


输出:

Name          John
Age             25
City      New York
Name: 0, dtype: object


在这个示例中,以索引0标识的行是以Series的形式表示的。通过使用iloc方法,我们可以按照索引的位置访问和操作特定行的数据。

序列(Series):

序列是Pandas中的一维数据结构,可以看作是带有标签索引的数组。它是由单个字段以及它们对应的索引组成。在内部,每个列都是一个序列。序列可以独立存在,也可以作为DataFrame中的一部分。

import pandas as pd

data = {'Name': ['John', 'Emma', 'Mike'],
        'Age': [25, 28, 30],
        'City': ['New York', 'London', 'Sydney']}

df = pd.DataFrame(data)
name_series = df['Name']
print(name_series)

输出:

0    John
1    Emma
2    Mike
Name: Name, dtype: object

在这个示例中,'Name'列是一个序列,它具有对应的索引,并被赋予了名称'Name'。