【文件属性】:
文件名称:StatisticWords:统计某目录下的单词出现频率
文件大小:6KB
文件格式:ZIP
更新时间:2021-05-01 13:10:16
java statistics bigdata Java
介绍
统计某目录下的所有文本文件的单词出现频率。支持大驼峰和小驼峰命名的单词组合拆分,例如:void setName(name);或者void SetName(Name);将被分解成4个单词。只支持英文单词,一个字母的单词将忽略。可自行定义排名前几的数据。可自定义扫描的文件类型。
测试结果
在大小写敏感模式下,统计某Java源码目录的结果
排名
单词
出现频率
1
the
311620
2
if
160965
3
int
147354
4
to
124752
5
ud
122707
6
return
120929
7
is
103377
8
of
97253
9
public
82258
10
code
80901
11
get
80374
12
in
78338
13
this
72584
14
for
66639
15
void
66632
16
const
65662
17
Stri
【文件预览】:
StatisticWords-master
----.project(373B)
----src()
--------test()
--------main()
----.settings()
--------org.eclipse.jdt.core.prefs(587B)
--------org.eclipse.core.resources.prefs(55B)
----README.md(3KB)
----.classpath(295B)
----bin()
--------.gitignore(72B)