R语言重要数据集分析研究——  数据集本身的分析技巧

时间:2021-11-26 20:06:17

  数据集本身的分析技巧

          作者:王立敏

          文章来源:网络

1.数据集

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。

Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。

2.数据分析

数据结构

创建向量和矩阵

函数c(), length(), mode(), rbind(), cbind()

求平均值,和,连乘,最值,方差,标准

函数mean(), sum(), min(), max(), var(), sd(), prod()

帮助

函数help()

生成向量

seq()

生成字母序列letters

新建向量

Which()函数,rev()函数,sort()函数

生成矩阵

函数matrix()

矩阵运算

函数t(),矩阵加减

矩阵运算

矩阵相乘,函数diag()

矩阵求逆,函数rnorm(),solve()

解线性方程组

函数solve(a,b)

3.怎样创建数据集

数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量。

R中有许多用于存储数据的结构,包括标量、向量、数组、数据框和列表。

在R中,对象(object)是指可以赋值给变量的任何事物,包括常量、数据结构、函数、甚至是图形。因子(factor)是名义型变量或有序型变量,在R中被特殊地存储和处理。

R中的数据结构

 R语言重要数据集分析研究——  数据集本身的分析技巧

 

4.分析技巧

首先分析文本内容,格式思考如何抽取,文件有三种类型answer,comment,vote,因此在开始的时候根据前面几个字符先判断文件类型。

接着根据需求构造对象和方法,并构造对象list来储存抽取出来的信息。

具体的抽取方法是用户split字符将文本划分为数组,然后用相同的方法再继续划分直到获得所需的关键字并将其存入split中

获取的得到的所有作者和姓名的答案数量,回复数量,并保存结果,若有相同作者,根据回复是否为空来判断答案或者回复并计数
最后结果存入新的list中,格式,作者,姓名和答案数量回复数量,最后构造comparator来比较器来排序,根据写作数量升序,若相同按照答案排序,以及统计总量。答案总数,回复总数。

求取平均每个作者写的答案数量和回复数。要注意的是结果用小数表示。