myfirstBI项目总结

时间:2023-03-08 22:09:55
myfirstBI项目总结

app 应用信息统计:

saiku安装:http://blog.csdn.net/longshenlmj/article/details/17359645

workbench解压即用,http://blog.csdn.net/longshenlmj/article/details/17530379

流程:

1,从hive上导入每天的app应用信息,来自各个网站,基本字段根据经验。

2,用kettle清洗设计,导入mysql

3,workbench连接好sql,设计XXX.xml的cube文件。

4,将cube文件通过saiku呈现。相关配置使用的细节,见上面的文件saiku安装。

worbench的纬度:从一个角度(另一个表的某个属性)看事实表中的数据统计信息(事实表ft要有对应的字段)。总结:维度表的column设置项与事实表中对应字段(设置在cube的foreign key)关联

一个纬度表,通过自身的某个键,和事实表的某个键关联。dimension的foreign key和level中column的设定。注意level中的显示列为空,则默认用上面的比较列,设置要显示的列内容,比如显示年份,用date_value进行比较,满足了,在显示同一行上的另一个列的内容。

saiku数据呈现:同一个dim下的level不能分开到row和column上,只能同时在一个上。

myfirstBI项目总结

dim上是的个数,行列都是dim,事实表中同时满足两个维度条件的元组个数。

measure是统计量,用于统计一列上的个数。比如downloads。统计的是事实表上的一列的值。另一方向放维度就表示,按不同维度值分别进行统计。多个维度,则多个满足条件下的统计。

注意,measure行列都可以放,想横着看,还是竖着看,就放到对应位置就行了。统计过程和统计结果不会发生改变(都是统计事实表中的一列)。measure和dim可以放到一起

myfirstBI项目总结

另外,在右边的尾部有加图功能,所以按日期看增长量。下图中就是有问题的,出现下降,说明数据有错误。

myfirstBI项目总结

(再比如,统计每天的下载量,按取值区间统计,观察是否符合正态分布,如果大值处依旧很高,说明作弊的可能性很大)

小测试,时间维度用维度表的dataval(维度表的column设置项),与事实表的date_value(cube的foreign key)关联,可以统计每天的信息。

level的type选regular,其它类型time_XXX还在测试中?