文件名称:big_data_project
文件大小:2.21MB
文件格式:ZIP
更新时间:2024-07-26 05:12:55
JavaScript
代码摘要 本项目的代码大概包含两部分:一是分析历史数据,二是实时数据。 数据文件 当我们创建一些我们想要分析的数据时,我们将它们放入数据文件中 历史分析 对于这一部分,我们有5 个目录: anaylyze&draw : 当我们从 hive 中获取数据时,我们使用该目录中的脚本进行进一步分析和数据可视化。 clean :此目录中的脚本是我们用来获取原始数据中没有的额外信息并进一步清理该数据的脚本。 get_data_from_hive :该目录包含一些 hive 和 shell 脚本,用于从原始数据中获取我们想要的数据。 graph :此目录包含所有HTML文件,其中包含D3.js以获取可视化数据。(注意这些文件与anaylyze&draw 中的文件不同)。 动画:此目录包含处理代码,用于在 2012 年 9 月 10 日为纽约签到制作动画。 实时分析 对于这一部分,我们有2 个目
【文件预览】:
big_data_project-master
----graph()
--------nyc_daily_checkin_cnt.html(2KB)
--------index.html(2KB)
--------three.html(3KB)
--------d3_bubble.png(182KB)
--------bubble.html(2KB)
--------histogram.html(3.55MB)
----heatmap()
--------tweet_service.py(2KB)
--------static()
--------tstream.py(3KB)
----get_data_from_hive()
--------hive_get_time.q(2KB)
--------fifth.q(898B)
--------first.q(647B)
--------four.q(497B)
----data()
--------userd_id_cat.tsv(139KB)
--------three_daily_checkin.tsv(8KB)
--------interval_chn.tsv(14KB)
--------nyc_10_09_all.tsv(927KB)
--------nyc_daily_checkin.tsv(5KB)
--------hive_get_time(2KB)
--------output.json(7KB)
--------category.txt(118KB)
--------interval_usa.tsv(15KB)
--------interval_min.tsv(16KB)
--------interval_la.tsv(13KB)
--------cat.json(489B)
--------interval_chi.tsv(13KB)
--------check_in_hour.tsv(613KB)
--------interval_nyc.tsv(13KB)
--------nyc_daily_checkin_time_order.tsv(5KB)
----animation()
--------final.pde(6KB)
--------sketch.properties(48B)
--------thrid.pde(2KB)
----real_time_frequency()
--------test_tweet.py(1KB)
--------real_time_frequency.ipynb(1.49MB)
----.DS_Store(10KB)
----clean()
--------clean.py(3KB)
--------GenerateJson.py(1KB)
--------get_json.py(914B)
--------cat_per_line.py(403B)
--------clean_version.py(3KB)
--------get_data_from_twitter.py(3KB)
----analyze&draw()
--------first.py(2KB)
--------second.py(2KB)
--------four.py(172B)
----README.md(1KB)