R语言入门(一)简介安装

时间:2023-02-10 20:02:12

数据挖掘常用的语言有R语言,python,SQL等,其中R语言最受欢迎。(注:SQL Server包含微软研究院开发的两种数据挖掘算法:Microsoft决策树和Microsoft聚集,此外还支持第三方开发的算法。)

R语言是由统计学家开发的,一款开源免费的统计绘图语言,可以提供数学统计分析,允许用户开发的包进行扩展,同时可以进行数据可视化,兼容多种格式的输入输出。

在CRAN(Comprehensive R Archive Network,里面收藏了R的安装包,文档及大量的软件扩展包)base下找到安装包(https://mirrors.tuna.tsinghua.edu.cn/CRAN/),安装。然后下载RStudio(https://www.rstudio.com/products/rstudio/download/),安装。打开RStudio,如下:

R语言入门(一)简介安装

RStudio是一款跨平台的R语言IDE,把绘图和展示等窗口整合在一起,不用来回跳转,方便很多。RGUI是R自带的IDE,如下图:

R语言入门(一)简介安装

R软件包是R里面的函数,编译后的代码和样本数据的集合。它们是存储在在R环境下的 “library” 目录下。默认情况下R安装过程中会安装基本的软件包。其他的包需要以后添加,当需要为某些特定目的使用时。

每个R软件包包括R函数、数据、帮助文件、描述文件等,base是基础功能包。软件包的安装方法有两种:

1.联网下载。用函数install.package(),如install.packages("MASS")。

2.手动下载。下载完后用install.packages(file_name_with_path, repos = NULL, type="source") 安装,如 install.packages("E:/XML_3.98-1.3.zip", repos = NULL, type="source")

 

R语言的数据类型主要有numeric数值型,integer整数型,logical逻辑型,character字符型,factor因子型。

factor因子型是以数字代码形式表示字符型数据(本质是定性数据,但用定量数据表示),如下所示:

> sex=factor(c(1,1,0,0,1),levels=c(0,1),labels=c("male","female"))
> sex
[1] female female male   male   female
Levels: male female
>