网站流量日志分析流程及架构

时间:2024-03-25 21:03:45

网站流量日志分析流程及架构

1. 数据处理流程

网站流量日志数据分析是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行。有以下几个大的步骤 :

  • 数据采集
    数据采集概念,目前行业会有两种解释:一是数据从无到有的过程(web 服务器打印的日志、自定义采集的日志等)叫做数据采集;另一方面也有把通过使用 Flume 等工具把数据采集到指定位置的这个过程叫做数据采集。
    关于具体含义要结合语境具体分析,明白语境中具体含义即可。
  • 数据预处理
    通过 mapreduce 程序对采集到的原始日志数据进行预处理,比如清洗,格式整理,滤除脏数据等,并且梳理成点击流模型数据。
  • 数据入库
    将预处理之后的数据导入到 HIVE 仓库中相应的库和表中。
  • 数据分析
    项目的核心内容,即根据需求开发 ETL 分析语句,得出各种统计结果。
  • 数据展现
    将分析所得数据进行数据可视化,一般通过图表进行展示。

2. 系统架构

网站流量日志分析流程及架构

相对于传统的 BI 数据处理,流程几乎差不多,但是因为是处理大数据,所以流程中各环节所使用的技术则跟传统 BI 完全不同:
数据采集:定制开发采集程序,或使用开源框架 Flume
数据预处理:定制开发 mapreduce 程序运行于 hadoop 集群
数据仓库技术:基于 hadoop 之上的 Hive
数据导出:基于 hadoop 的 sqoop 数据导入导出工具
数据可视化:定制开发 web 程序(echarts)
整个过程的流程调度:hadoop 生态圈中的 azkaban 工具

网站流量日志分析流程及架构

其中,需要强调的是:
系统的数据分析不是一次性的,而是按照一定的时间频率反复计算,因而整个处理链条中的各个环节需要按照一定的先后依赖关系紧密衔接,即涉及到大量任务单元的管理调度,所以,项目中需要添加一个任务调度模块。

3. 数据展现

数据展现的目的是将分析所得的数据进行可视化,以便运营决策人员能更方便地获取数据,更快更简单地理解数据。
市面上有许多开源的数据可视化软件、工具。比如 Echarts

网站流量日志分析流程及架构

喜欢就点赞评论+关注吧

网站流量日志分析流程及架构

感谢阅读,希望能帮助到大家,谢谢大家的支持!