R语言实战(二)数据管理

时间:2023-03-08 16:10:24
R语言实战(二)数据管理

本文对应《R语言实战》第4章:基本数据管理;第5章:高级数据管理

创建新变量

#建议采用transform()函数
mydata <- transform(mydata,
sumx = x1 + x2,
meanx = (x1 + x2)/2)

  

算术运算符

+

-

*

/

**或^

求幂

x%%y

求余(x mod y)。5%%2的结果为1

x%/%y

整数除法。5%/%2的结果为2

重编码

<

小于

<=

小于或等于

>

大于

>=

大于或等于

==

严格等于(比较浮点类型时慎用,易误判)

!=

不等于

!x

非x

x | y

x或y

x & y

x和y

isTRUE(x)

x是否为TRUE

#较为直观
leadership$agecat[leadership$age > 75] <- “Elder”
leadership$agecat[leadership$age >= 55 &
leadership$age <= 75] <- “Middle”
leadership$agecat[leadership$age < 55] <- “Young” #或者
leadership <- within(leadership, {
agecat <- NA
agecat[age > 75] <- “Elder”
agecat[age >= 55 & age <= 75] <- “Middle”
agecat[age < 55] <- “Young”
})

  

重命名

#交互式编辑器编辑变量名
fix(leadership)
#reshape包函数rename()
library(reshape)
leadership <- rename(leadership, c(manager = “managerID”, date = “testDate”))
#names()函数
names(leadership)[6:10] <- c(“item1”, “item2”, “item3”, “item4”, “item5”)

  

缺失值

缺失值NA(Not Available)不可能出现的值NaN(Not a Number)

#缺失值判定,返回同等大小对象,内容为TRUE或FALSE
is.na(object)
#缺失值无法比较,不能使用 ”==” 判断

  

异常值可以重编码为缺失值;分析中排除缺失值可以使用na.omit()函数。

日期值

as.Date(x, “input_format”)

x为日期向量,”input_format”为输入格式

%d

数字表示的日期

01~31

%a

缩写的星期名

Mon

%A

非缩写的星期名

Monday

%m

数字表示的月份

00~12

%b

缩写的月份

Jan

%B

非缩写的月份

January

%y

两位数的年份

07

%Y

四位数的年份

2007

#示例
strDates <- c(“01/05/1965”, “08/16/1975”)
dates <- as.Date(strDates, “%m/%d/%Y”)

  

提示,也可以将日期转换为字符型变量,继续进行字符串的处理

其他日期处理相关的包:lubridate, fCalendar

类型转换

is.numeric()

as.numeric()

is.character()

as.character()

is.vector()

as.vector

is.matrix()

as.matrix()

is.data.frame()

as.data.frame()

is.factor()

as.factor

is.logical()

as.logical()

数据排序

order()函数,默认升序

#order()函数示例
newdata <- leadership[order(leadership$gender, -leadership$age), ]
#依性别升序和年龄降序排列

  

数据集合并

添加行:

rbind()函数

total <- rbind(dataframeA, dataframeB)

  

两个数据框中必须要有相同的变量,顺序可以不相同

如果变量不一致,需要提前处理:删除多余变量;或者追加缺失值

添加列:

不指定公共索引时,可以使用cbind()

指定索引,使用merge()

数据集取子集

一般情况下,可以采用如下代码

newdata <- dataframe[row_indices, colomn_indices]

  

变量(列)

#保留变量方式:

#指明具体列的序号
newdata <- leadership[, c(6:10)]
#指明列名称
myvars <- c(“q1”, “q2”, “q3”, “q4”, “q5”)
newdata <- leadership[myvars] #剔除变量方式: #指明序号,使用负号剔除
newdata <- leadership[c(-8, -9)]
#设为未定义(NULL)
leadership$q3 <- leadership$q4 <- NULL
#指明列名称
myvars <- names(leadership) %in% c(“q3”, “q4”)
newdata <- leadership[!myvars]
#解释:names()函数生成包含所有变量名的字符型向量
# %in%将后面的向量以前面的向量为准进行匹配,返回布尔型向量
#翻转后即可实现向量匹配

  

观测(行)

#指明行序号
newdata <- leadership[1:3, ]
#条件筛选
newdata <- leadership[which(leadership$gender == “M”), ]

  

subset()函数

#两个例子
newdata <- subset(leadership, age >= 35 | age < 24, select = c(q1, q2, q3, q4)) newdata <- subset(leadership, gender == “M” & age > 25, select = gender : q4)

  

随机抽样

mysample <- leadership[sample(1:nrow(leadership), 3, replace = FALSE), ]

  

更多抽样方法将在后面作详细介绍

SQL语句操作数据框

package sqldf

数值和字符处理

数学函数

abs(x)

绝对值

sqrt(x)

平方根

ceiling(x)

向上取整

floor(x)

向下取整

trunc(x)

向0取整

round(x, digits = n)

将x舍入为指定位小数

signif(x, digits = n)

将x舍入为指定位有效数字

cos(x), sin(x), tan(x)

余弦正弦正切

acos(x), asin(x), atan(x)

反余弦反正弦反正切

cosh(x), sinh(x), tanh(x)

双曲余弦双曲正弦双曲正切

acosh(x), asinh(x), atanh(x)

反双曲余弦反双曲正弦反双曲正切

exp(x)

自然为底的指数函数

log(x, base = n)

log(x)

log10(x)

n为底的对数

log(x)为自然对数

log10(x)为常用对数

统计函数

mean(x)

平均数(声明里trim = 0.05表示丢弃最大最小的5%数据后的平均数)

median(x)

中位数

sd(x)

标准差

var(x)

方差

mad(x)

绝对中位数

quantile(x, probs)

分位数

range(x)

值域

sum(x)

求和

diff(x, lag = n)

滞后差分,lag指定滞后几项,默认1

x <- c(1, 5, 23, 29)

diff(x)返回c(4, 18, 6)

min(x)

最小值

max(x)

最大值

scale(x, center = TRUE, scale = TRUE)

为数据对象x按列进行中心化(center = TRUE)或标准化(center = TRUE, scale = TRUE)

关于scale()函数的说明:

默认情况下,该函数对矩阵或数据框的指定列进行均值为0,方差为1的标准化:

newdata <- scale(mydata)

  

要进行指定均值和方差,使用以下语句

newdata <- scale(mydata) * SD + M

  

对指定列进行标准化:

newdata <- transform(mydata, myvar = scale(myvar) * SD + M)

  

概率函数

形如

[dpqr]分布缩写

d = 密度函数(density)

p = 分布函数(distribution function)

q = 分位数函数(quantile function)

r = 生成随机数(随机偏差)

分布名称

缩写

分布名称

缩写

Beta分布

beta

Logistic分布

logis

二项分布

binom

多项分布

multinom

柯西分布

cauchy

负二项分布

nbinom

(非中心)卡方分布

chisq

正态分布

norm

指数分布

exp

泊松分布

pois

F分布

f

Wilcoxon符号秩分布

signrank

Gamma分布

gamma

t分布

t

几何分布

geom

均匀分布

unif

超几何分布

hyper

Weibull分布

weibull

对数正态分布

lnorm

Wilcoxon秩和分布

wilcox

如密度函数dnorm, 分布函数pnorm, 分位数函数qnorm, 随机数生成函数rnorm

设定随机数种子:使结果可以复现

set.seed(n)

  

生成多元正态数据:给定均值向量和协方差矩阵的数据集

library(MASS)
mvrnorm(n, mean, sigma)

  

字符处理函数

nchar(x)

计算x中字符数量

substr(x, start, stop)

提取或替换一个字符向量中的子串

substr(“abcdef”, 2, 4)#返回”bcd”

(substr(“abcdef”, 2, 4) <- “22222”)#返回”a222ef”

grep(pattern, x, ignore.case = FALSE, fixed = FALSE)

在x中搜索某种模式。fixed = FALSE, pattern为正则表达式,fixed = TRUE, pattern为文本字符串

返回值为匹配的下标

sub(pattern, replacement, x, ignore.case = FALSE, fixed = FALSE)

在x中搜索pattern, 并用replacement替换

strsplit(x, split, fixed = FALSE)

在split处分割x

paste(… , sep = “”)

连接字符串,分隔符为sep

toupper(x)

大写转换

tolower(x)

小写转换

函数grep(), sub()和strsplit()能够搜索文本字符串(fixed = TRUE)或者正则表达式(fixed = FALSE, 默认值)

正则表达式用法,参考https://zh.wikipedia.org/wiki/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F

其他实用函数

length(x)

返回对象x的长度

seq(from, to, by)

生成一个序列

seq(1, 10, 2)#c(1, 3, 5, 7, 9)

rep(x, n)

将x重复n次

cut(x, n)

将连续型变量x分割为有着n个水平的因子

pretty(x, n)

创建美观的分割点。选取n+1个点,将x分割为n个区间,绘图常用

cat(…, file = “myfile”, append = FALSE)

连接…中的对象,并将其输出到屏幕上或文件中

将函数应用于矩阵和数据框

apply族函数,详细应用方式在另一本书中,到时补充吧

一般用法:

apply(x, MARGIN, FUN, …)

MARGIN = 1 表示应用到行,MARGIN = 2表示应用到列

控制流

循环:

for (var in seq) statement

while (cond) statement

只要可能,尽量应用apply族函数,避免循环语句

条件执行:

#if-else结构
if (cond) statement1 else statement2 #ifelse结构:程序行为是二元或输入输出均为向量,尽量使用本结构
ifelse(cond, statement1, statement2) #switch结构
switch(expr, …)

  

自编函数

自编函数的一些注意事项,在Google’s R Style Guide (https://google.github.io/styleguide/Rguide.xml) 中提到,详情可直接参考网页

整合与重构

转置

#对矩阵或数据框进行转置
t()

  

整合数据

使用一个或多个变量,一个预先定义好的函数,对数据进行折叠(collapse)

aggregate(x, by, FUN)

#示例
attach(mtcars)
aggdata <- aggregate(mtcars, by = list(cyl, gear), FUN = mean, na.rm = TRUE)
#返回根据cyl, gear为组合的组为观测,各个变量的均值

  

reshape包(reshape2包)

融合与重铸

#融合,使每一行都是一个唯一的标识符-变量组合
library(reshape)
md <- melt(mydata, id = (c(“id”, “time”))) #重铸
newdata <- cast(md, formula, FUN)
#formula形式:rowvar1 + rowvar2 + … ~ colvar1 + colvar2 + …
#左边为观测分组(行),右边为变量分组(列)