快速开始

4.DataFrame(快速开始)

基本概念

'''
在使用 DataFrame 时，需要了解三个对象上的操作:Collection(DataFrame) ，Sequence，Scalar
Collection(DataFrame)表示表结构（或者二维结构）
Sequence表示列（一维结构）
Scalar表示标量
要注意的是，这些对象仅在使用 Pandas 数据创建后会包含实际数据
而在 ODPS 表上创建的对象中并不包含实际的数据，
而仅仅包含对这些数据的操作，实质的存储和计算会在 ODPS 中进行。
'''
# 创建DataFrame
'''
通常情况下，你唯一需要直接创建的 Collection 对象是 DataFrame,这一对象用于引用数据源
可能是一个 ODPS 表， ODPS 分区，Pandas DataFrame或sqlalchemy.Table（数据库表）
用这几种数据源时，相关的操作相同，这意味着你可以不更改数据处理的代码
仅仅修改输入/输出的指向， 便可以简单地将小数据量上本地测试运行的代码迁移到 ODPS 上，
而迁移的正确性由 PyODPS 来保证。
创建 DataFrame 非常简单，只需将 Table 对象、 pandas DataFrame 对象或者 sqlalchemy Table 对象传入即可。
'''

4.DataFrame(快速开始)

# 列类型
'''
DataFrame包括自己的类型系统，在使用Table初始化的时候，ODPS的类型会被进行转换。
这样做的好处是，能支持更多的计算后端。
目前，DataFrame的执行后端支持ODPS SQL、pandas以及数据库（MySQL和Postgres）。
PyODPS DataFrame 包括以下类型
int8，int16，int32，int64，float32，float64，boolean，string，decimal，datetime，list，dict
ODPS的字段和DataFrame的类型映射关系如下：
'''

4.DataFrame(快速开始)

秒客网

4.DataFrame(快速开始)

快速开始

基本概念

相关文章