词频统计
#创建表,只有一列,列名line
create table word_count (
line string)
row format delimited fields terminated by '\t'
lines terminated by '\n';
#导入一篇文章到表里
load data local inpath '/home/dip/test/word_count.txt'
#词频统计
select word ,count(*) as cnt
from
(select
explode(split(line ,' ')) as word
from word_count)t1
group by word
order by cnt desc;
相关文章
- hive_学习_01_hive环境搭建(单机)
- Hive学习01-基础常见问题
- [学习记录]NLTK常见操作一(去网页标记,统计词频,去停用词)
- 机器学习之文本分类-从词频统计到神经网络(一)
- 李航《统计学习方法》CH01
- 大数据学习day26----hive01----1hive的简介 2 hive的安装(hive的两种连接方式,后台启动,标准输出,错误输出)3. 数据库的基本操作 4. 建表(内部表和外部表的创建以及应用场景,数据导入,学生、分数sql练习)5.分区表 6加载数据的方式
- Hadoop上的中文分词与词频统计实践 (有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html)