概念:

为了提升数据的准确性，将某个点的取值扩大到包含这个点的一段区间，用区间来进行判断，这个区间就是窗口。移动窗口就是窗口向一端滑行，默认是从右往左，每次滑行并不是区间整块的滑行，而是一个单位一个单位的滑行。

上图是10天作为窗口大小，蓝色线条是滑动窗口的均值，红色线条是原始的数据

给个例子好理解一点：

不知道大家看出了其中规律没有

首先我们设置的窗口window=3，也就是3个数取一个均值。index 0,1 为NaN，是因为它们前面都不够3个数，等到index2 的时候，它的值是怎么算的呢，就是（index0+index1+index2 ）/3

index3 的值就是（ index1+index2+index3）/ 3

参数详解：

DataFrame.rolling(window, min_periods=None, center=False, win_type=None, on=None, axis=0, closed=None)

window：也可以省略不写。表示时间窗的大小，注意有两种形式（int or offset）。如果使用int，则数值表示计算统计量的观测值的数量即向前几个数据。如果是offset类型，表示时间窗的大小。offset详解

min_periods：每个窗口最少包含的观测值数量，小于这个值的窗口结果为NA。值可以是int，默认None。offset情况下，默认为1。

center: 把窗口的标签设置为居中。布尔型，默认False，居右

win_type: 窗口的类型。截取窗的各种函数。字符串类型，默认为None。各种类型

on: 可选参数。对于dataframe而言，指定要计算滚动窗口的列。值为列名。

axis: int、字符串，默认为0，即对列进行计算

closed：定义区间的开闭，支持int类型的window。对于offset类型默认是左开右闭的即默认为right。可以根据情况指定为left both等。

一、概念

为了处理数字数据，Pandas提供了几个变体，如滚动，展开和指数移动窗口统计的权重。其中包括总和，均值，中位数，方差，协方差，相关性等；

所谓窗口，就是将某个点的取值扩大到包含这个点的一段区间，用区间来进行判断；

移动窗口就是窗口向一端滑行，默认是从右往左，每次滑行并不是区间整块的滑行，而是一个单位一个单位的滑行；

窗口函数主要用于通过平滑曲线来以图形方式查找数据内的趋势。如果日常数据中有很多变化，并且有很多数据点可用，那么采样和绘图就是一种方法，应用窗口计算并在结果上绘制图形是另一种方法。通过这些方法，可以平滑曲线或趋势。

二、rolling()

1. 参数说明

DataFrame.rolling(window, min_periods=None, center=False, win_type=None,

on=None, axis=0, closed=None)

window：表示时间窗的大小，有两种形式：1)使用数值int，则表示观测值的数量，即向前几个数据；2)也可以使用offset类型，这种类型较复杂，使用场景较少，此处暂不做介绍；

min_periods：每个窗口最少包含的观测值数量，小于这个值的窗口结果为NA。值可以是int，默认None。offset情况下，默认为1；

center: 把窗口的标签设置为居中，布尔型，默认False，居右

win_type: 窗口的类型。截取窗的各种函数。字符串类型，默认为None；

on: 可选参数。对于dataframe而言，指定要计算滚动窗口的列。值为列名。

axis: 默认为0，即对列进行计算

closed：定义区间的开闭，支持int类型的window。对于offset类型默认是左开右闭的即默认为right。可以根据情况指定为left、both等。

2. 代码示例

示例中，由于窗口大小为3(window)，前两个元素有空值，第三个元素的值将是n，n-1和n-2元素的平均值。

import pandas as pd

import numpy as np

df = pd.DataFrame(np.random.randn(7, 4),

index = pd.date_range(\'1/1/2020\', periods=7),

columns = [\'A\', \'B\', \'C\', \'D\'])

A B C D

2020-01-01 -0.103252 -0.378633 -0.689324 -1.150870

2020-01-02 -0.838289 0.036139 -0.481754 -0.006116

2020-01-03 -0.832013 -0.770184 -1.818931 0.253601

2020-01-04 -1.696006 -0.021195 0.772365 0.332447

2020-01-05 -2.136677 1.088825 1.166188 0.140585

2020-01-06 -0.705095 0.709978 1.077941 0.055677

2020-01-07 0.990198 0.764884 0.858504 -0.903039

df.rolling(window=3).mean()

A B C D

2020-01-01 NaN NaN NaN NaN

2020-01-02 NaN NaN NaN NaN

2020-01-03 0.079891 -0.714177 -0.453193 0.232669

2020-01-04 -0.479782 -0.513903 -0.631638 0.034099

2020-01-05 -0.574793 -0.532310 -0.544511 -0.535417

2020-01-06 -0.675196 0.421606 -0.214320 -0.463122

2020-01-07 -0.118239 0.637363 -0.270283 -0.653187

df.rolling(window=3, min_periods=1).mean() 设置最少观测值数量为1

A B C D

2020-01-01 -0.103252 -0.378633 -0.689324 -1.150870

2020-01-02 -0.470771 -0.171247 -0.585539 -0.578493

2020-01-03 -0.591185 -0.370893 -0.996670 -0.301128

2020-01-04 -1.122103 -0.251747 -0.509440 0.193311

2020-01-05 -1.554899 0.099149 0.039874 0.242211

2020-01-06 -1.512593 0.592536 1.005498 0.176237

2020-01-07 -0.617191 0.854562 1.034211 -0.235592

3. 常见用法

rolling()函数除了mean()，还支持很多函数，比如：

count() 非空观测值数量

sum() 值的总和

median() 值的算术中值

min() 最小值

max() 最大

std() 贝塞尔修正样本标准差

var() 无偏方差

skew() 样品偏斜度(三阶矩)

kurt() 样品峰度(四阶矩)

quantile() 样本分位数(百分位上的值)

cov() 无偏协方差(二元)

corr() 相关(二进制)

借助 agg ()函数可以快速实现多个聚类函数，并输出结果，同时还可以进行重命名；

代码示例

df2 = pd.DataFrame({
"date": pd.date_range("2018-07-01", periods=7),

"amount": [12000, 18000, np.nan, 12000, 9000, 16000, 18000]})

df2

date amount

0 2018-07-01 12000.0

1 2018-07-02 18000.0

2 2018-07-03 NaN

3 2018-07-04 12000.0

4 2018-07-05 9000.0

5 2018-07-06 16000.0

6 2018-07-07 18000.0

窗口大小为2

df2.rolling(window=2, on="date").sum()

date amount

0 2018-07-01 NaN

1 2018-07-02 30000.0

2 2018-07-03 NaN

3 2018-07-04 NaN

4 2018-07-05 21000.0

5 2018-07-06 25000.0

6 2018-07-07 34000.0

窗口大小为2，最少观测值数量为1

df2.rolling(window=2, on="date", min_periods=1).sum()

date amount

0 2018-07-01 12000.0

1 2018-07-02 30000.0

2 2018-07-03 18000.0

3 2018-07-04 12000.0

4 2018-07-05 21000.0

5 2018-07-06 25000.0

6 2018-07-07 34000.0

返回多个聚合结果，如sum()、mean()

df2.rolling(window=2, min_periods=1)["amount"].agg([np.sum, np.mean])

sum mean

0 12000.0 12000.0

1 30000.0 15000.0

2 18000.0 18000.0

3 12000.0 12000.0

4 21000.0 10500.0

5 25000.0 12500.0

6 34000.0 17000.0

返回多个聚合结果，并进行重命名

df2.rolling(window=2, min_periods=1)["amount"].agg({"amt_sum": np.sum, "amt_mean": np.mean})

amt_sum amt_mean

0 12000.0 12000.0

1 30000.0 15000.0

2 18000.0 18000.0

3 12000.0 12000.0

4 21000.0 10500.0

5 25000.0 12500.0

6 34000.0 17000.0

4. 延伸用法

通过rolling()函数与聚合函数的拼接，组成新的函数，可以更方便地实现窗口函数的功能；

这种用法，功能强大，代码简单，所有参数的设置基本一致；

列举如下

rolling_count() 计算各个窗口中非NA观测值的数量

rolling_sum() 计算各个移动窗口中的元素之和

rolling_mean() 计算各个移动窗口中元素的均值

rolling_median() 计算各个移动窗口中元素的中位数

rolling_var() 计算各个移动窗口中元素的方差

rolling_std() 计算各个移动窗口中元素的标准差

rolling_min() 计算各个移动窗口中元素的最小值

rolling_max() 计算各个移动窗口中元素的最大值

rolling_corr() 计算各个移动窗口中元素的相关系数

rolling_corr_pairwise() 计算各个移动窗口中配对数据的相关系数

rolling_cov() 计算各个移动窗口中元素的的协方差

rolling_quantile() 计算各个移动窗口中元素的分位数

5. 自定义函数

除了支持聚合函数，通过rolling().apply()方法，还可以在移动窗口上使用自己定义的函数，实现某些特殊功能；

唯一需要满足的是，在数组的每一个片段上，函数必须产生单个值；

代码示例

# 自定义方法：求和后，除以100

df2.rolling(2, min_periods=1)["amount"].apply(lambda x: sum(x)/100, raw=False)

0 120.0

1 300.0

2 NaN

3 NaN

4 210.0

5 250.0

6 340.0

三、expanding()

1. 参数说明

DataFrame.expanding(min_periods = 1，center = False，axis = 0)

expanding()函数的参数，与rolling()函数的参数用法相同；

rolling()函数，是固定窗口大小，进行滑动计算，expanding()函数只设置最小的观测值数量，不固定窗口大小，实现累计计算，即不断扩展；

expanding()函数，类似cumsum()函数的累计求和，其优势在于还可以进行更多的聚类计算；

事实上，当rolling()函数的参数window=len(df)时，实现的效果与expanding()函数是一样的。

2. 代码示例

import pandas as pd

import numpy as np

df = pd.DataFrame(np.random.randn(10, 4),

index = pd.date_range(\'1/1/2018\', periods=10),

columns = [\'A\', \'B\', \'C\', \'D\'])

A B C D

2018-01-01 -0.349086 -0.225357 -0.108829 1.662773

2018-01-02 1.056407 -0.159644 0.042278 0.298922

2018-01-03 -1.376891 0.112999 -0.719286 0.254892

2018-01-04 0.741323 1.510449 0.615251 -1.896209

2018-01-05 1.305841 0.380900 -0.961663 -0.654108

2018-01-06 -1.079804 -0.883547 0.149659 -0.065931

2018-01-07 0.240168 -0.409613 -0.543655 0.797564

2018-01-08 0.716836 -0.329991 0.271236 -2.138515

2018-01-09 -1.448734 1.261487 0.795663 -1.492216

2018-01-10 -1.212092 -1.039160 1.581169 1.156089

df.expanding(min_periods=2).mean()

A B C D

2018-01-01 NaN NaN NaN NaN

2018-01-02 0.353660 -0.192500 -0.033276 0.980848

2018-01-03 -0.223190 -0.090667 -0.261946 0.738863

2018-01-04 0.017938 0.309612 -0.042647 0.080095

2018-01-05 0.275519 0.323869 -0.226450 -0.066746

2018-01-06 0.049632 0.122633 -0.163765 -0.066610

2018-01-07 0.076851 0.046598 -0.218035 0.056843

2018-01-08 0.156849 -0.000475 -0.156876 -0.217576

2018-01-09 -0.021549 0.139743 -0.051038 -0.359203

2018-01-10 -0.140603 0.021852 0.112182 -0.207674

# 判断expanding()的求和结果，与cumsum()结果，相同

result1 = df.expanding(min_periods=1).sum()

result2 = df.cumsum()

np.allclose(result1, result2)

True

四、ewm()

该函数，表示指数加权滑动，使用场景较少，本文暂不做详细介绍，后续用到了，会补充该部分内容。

秒客网

pd.rolling（）窗口移动 expanding 累进

概念:

相关文章

pd.rolling（） 窗口移动 expanding 累进

概念:

相关文章

pd.rolling（）窗口移动 expanding 累进