R语言实战（二）数据管理

本文对应《R语言实战》第4章：基本数据管理；第5章：高级数据管理

创建新变量

#建议采用transform()函数

mydata <- transform(mydata,

sumx = x1 + x2,

meanx = (x1 + x2)/2)

算术运算符

+	加
-	减
*	乘
/	除
**或^	求幂
x%%y	求余（x mod y）。5%%2的结果为1
x%/%y	整数除法。5%/%2的结果为2

重编码

<	小于
<=	小于或等于
>	大于
>=	大于或等于
==	严格等于（比较浮点类型时慎用，易误判）
!=	不等于
!x	非x
x \| y	x或y
x & y	x和y
isTRUE(x)	x是否为TRUE

#较为直观

leadership$agecat[leadership$age > 75] <- “Elder”

leadership$agecat[leadership$age >= 55 &

leadership$age <= 75] <- “Middle”

leadership$agecat[leadership$age < 55] <- “Young”

#或者

leadership <- within(leadership, {

                                  agecat <- NA

                                  agecat[age > 75] <- “Elder”

                                  agecat[age >= 55 & age <= 75] <- “Middle”

                                  agecat[age < 55] <- “Young”

                                  })

重命名

#交互式编辑器编辑变量名

fix(leadership)

#reshape包函数rename()

library(reshape)

leadership <- rename(leadership, c(manager = “managerID”, date = “testDate”))

#names()函数

names(leadership)[6:10] <- c(“item1”, “item2”, “item3”, “item4”, “item5”)

缺失值

缺失值NA（Not Available）不可能出现的值NaN（Not a Number）

#缺失值判定，返回同等大小对象，内容为TRUE或FALSE

is.na(object)

#缺失值无法比较，不能使用 ”==” 判断

异常值可以重编码为缺失值；分析中排除缺失值可以使用na.omit()函数。

日期值

as.Date(x, “input_format”)

x为日期向量，”input_format”为输入格式

%d	数字表示的日期	01~31
%a	缩写的星期名	Mon
%A	非缩写的星期名	Monday
%m	数字表示的月份	00~12
%b	缩写的月份	Jan
%B	非缩写的月份	January
%y	两位数的年份	07
%Y	四位数的年份	2007

#示例

strDates <- c(“01/05/1965”, “08/16/1975”)

dates <- as.Date(strDates, “%m/%d/%Y”)

提示，也可以将日期转换为字符型变量，继续进行字符串的处理

其他日期处理相关的包：lubridate, fCalendar

类型转换

is.numeric()	as.numeric()
is.character()	as.character()
is.vector()	as.vector
is.matrix()	as.matrix()
is.data.frame()	as.data.frame()
is.factor()	as.factor
is.logical()	as.logical()

数据排序

order()函数，默认升序

#order()函数示例

newdata <- leadership[order(leadership$gender, -leadership$age), ]

#依性别升序和年龄降序排列

数据集合并

添加行：

rbind()函数

total <- rbind(dataframeA, dataframeB)

两个数据框中必须要有相同的变量，顺序可以不相同

如果变量不一致，需要提前处理：删除多余变量；或者追加缺失值

添加列：

不指定公共索引时，可以使用cbind()

指定索引，使用merge()

数据集取子集

一般情况下，可以采用如下代码

newdata <- dataframe[row_indices, colomn_indices]

变量（列）

#保留变量方式：

#指明具体列的序号

newdata <- leadership[, c(6:10)]

#指明列名称

myvars <- c(“q1”, “q2”, “q3”, “q4”, “q5”)

newdata <- leadership[myvars]

#剔除变量方式：

#指明序号，使用负号剔除

newdata <- leadership[c(-8, -9)]

#设为未定义（NULL）

leadership$q3 <- leadership$q4 <- NULL

#指明列名称

myvars <- names(leadership) %in% c(“q3”, “q4”)

newdata <- leadership[!myvars]

#解释：names()函数生成包含所有变量名的字符型向量

# %in%将后面的向量以前面的向量为准进行匹配，返回布尔型向量

#翻转后即可实现向量匹配

观测（行）

#指明行序号

newdata <- leadership[1:3, ]

#条件筛选

newdata <- leadership[which(leadership$gender == “M”), ]

subset()函数

#两个例子

newdata <- subset(leadership, age >= 35 | age < 24, select = c(q1, q2, q3, q4))

newdata <- subset(leadership, gender == “M” & age > 25, select = gender : q4)

随机抽样

mysample <- leadership[sample(1:nrow(leadership), 3, replace = FALSE), ]

更多抽样方法将在后面作详细介绍

SQL语句操作数据框

package sqldf

数值和字符处理

数学函数

abs(x)	绝对值
sqrt(x)	平方根
ceiling(x)	向上取整
floor(x)	向下取整
trunc(x)	向0取整
round(x, digits = n)	将x舍入为指定位小数
signif(x, digits = n)	将x舍入为指定位有效数字
cos(x), sin(x), tan(x)	余弦正弦正切
acos(x), asin(x), atan(x)	反余弦反正弦反正切
cosh(x), sinh(x), tanh(x)	双曲余弦双曲正弦双曲正切
acosh(x), asinh(x), atanh(x)	反双曲余弦反双曲正弦反双曲正切
exp(x)	自然为底的指数函数
log(x, base = n) log(x) log10(x)	n为底的对数 log(x)为自然对数 log10(x)为常用对数

统计函数

mean(x)	平均数（声明里trim = 0.05表示丢弃最大最小的5%数据后的平均数）
median(x)	中位数
sd(x)	标准差
var(x)	方差
mad(x)	绝对中位数
quantile(x, probs)	分位数
range(x)	值域
sum(x)	求和
diff(x, lag = n)	滞后差分，lag指定滞后几项，默认1 x <- c(1, 5, 23, 29) diff(x)返回c(4, 18, 6)
min(x)	最小值
max(x)	最大值
scale(x, center = TRUE, scale = TRUE)	为数据对象x按列进行中心化（center = TRUE）或标准化（center = TRUE, scale = TRUE）

关于scale()函数的说明：

默认情况下，该函数对矩阵或数据框的指定列进行均值为0，方差为1的标准化：

newdata <- scale(mydata)

要进行指定均值和方差，使用以下语句

newdata <- scale(mydata) * SD + M

对指定列进行标准化：

newdata <- transform(mydata, myvar = scale(myvar) * SD + M)

概率函数

形如

[dpqr]分布缩写

d = 密度函数（density）

p = 分布函数（distribution function）

q = 分位数函数（quantile function）

r = 生成随机数（随机偏差）

分布名称	缩写	分布名称	缩写
Beta分布	beta	Logistic分布	logis
二项分布	binom	多项分布	multinom
柯西分布	cauchy	负二项分布	nbinom
（非中心）卡方分布	chisq	正态分布	norm
指数分布	exp	泊松分布	pois
F分布	f	Wilcoxon符号秩分布	signrank
Gamma分布	gamma	t分布	t
几何分布	geom	均匀分布	unif
超几何分布	hyper	Weibull分布	weibull
对数正态分布	lnorm	Wilcoxon秩和分布	wilcox

如密度函数dnorm, 分布函数pnorm, 分位数函数qnorm, 随机数生成函数rnorm

设定随机数种子：使结果可以复现

set.seed(n)

生成多元正态数据：给定均值向量和协方差矩阵的数据集

library(MASS)

mvrnorm(n, mean, sigma)

字符处理函数

nchar(x)	计算x中字符数量
substr(x, start, stop)	提取或替换一个字符向量中的子串 substr(“abcdef”, 2, 4)#返回”bcd” (substr(“abcdef”, 2, 4) <- “22222”)#返回”a222ef”
grep(pattern, x, ignore.case = FALSE, fixed = FALSE)	在x中搜索某种模式。fixed = FALSE, pattern为正则表达式，fixed = TRUE, pattern为文本字符串返回值为匹配的下标
sub(pattern, replacement, x, ignore.case = FALSE, fixed = FALSE)	在x中搜索pattern, 并用replacement替换
strsplit(x, split, fixed = FALSE)	在split处分割x
paste(… , sep = “”)	连接字符串，分隔符为sep
toupper(x)	大写转换
tolower(x)	小写转换

函数grep(), sub()和strsplit()能够搜索文本字符串（fixed = TRUE）或者正则表达式（fixed = FALSE, 默认值）

正则表达式用法，参考https://zh.wikipedia.org/wiki/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F

其他实用函数

length(x)	返回对象x的长度
seq(from, to, by)	生成一个序列 seq(1, 10, 2)#c(1, 3, 5, 7, 9)
rep(x, n)	将x重复n次
cut(x, n)	将连续型变量x分割为有着n个水平的因子
pretty(x, n)	创建美观的分割点。选取n+1个点，将x分割为n个区间，绘图常用
cat(…, file = “myfile”, append = FALSE)	连接…中的对象，并将其输出到屏幕上或文件中

将函数应用于矩阵和数据框

apply族函数，详细应用方式在另一本书中，到时补充吧

一般用法：

apply(x, MARGIN, FUN, …)

MARGIN = 1 表示应用到行，MARGIN = 2表示应用到列

控制流

循环：

for (var in seq) statement

while (cond) statement

只要可能，尽量应用apply族函数，避免循环语句

条件执行：

#if-else结构

if (cond) statement1 else statement2

#ifelse结构：程序行为是二元或输入输出均为向量，尽量使用本结构

ifelse(cond, statement1, statement2)

#switch结构

switch(expr, …)

自编函数

自编函数的一些注意事项，在Google’s R Style Guide (https://google.github.io/styleguide/Rguide.xml) 中提到，详情可直接参考网页

整合与重构

转置

#对矩阵或数据框进行转置

t()

整合数据

使用一个或多个变量，一个预先定义好的函数，对数据进行折叠（collapse）

aggregate(x, by, FUN)

#示例

attach(mtcars)

aggdata <- aggregate(mtcars, by = list(cyl, gear), FUN = mean, na.rm = TRUE)

#返回根据cyl, gear为组合的组为观测，各个变量的均值

reshape包（reshape2包）

融合与重铸

#融合，使每一行都是一个唯一的标识符-变量组合

library(reshape)

md <- melt(mydata, id = (c(“id”, “time”)))

#重铸

newdata <- cast(md, formula, FUN)

#formula形式：rowvar1 + rowvar2 + … ~ colvar1 + colvar2 + …

#左边为观测分组（行），右边为变量分组（列）

秒客网

R语言实战（二）数据管理

相关文章