教你用java统计目录下所有文档的词频

本文是统计目录下所有文档的词频top10，非单个文档，包含中文和英文。
直接上代码：
 package com.huawei.wordcount;

 import java.io.BufferedReader;

 import java.io.File;

 import java.io.FileReader;

 import java.io.IOException;

 import java.util.ArrayList;

 import java.util.Collections;

 import java.util.Comparator;

 import java.util.HashMap;

 import java.util.List;

 import java.util.Map;

 import java.util.Map.Entry;

 public class WordCount {

     public static void main(String args[]) throws Exception {

         String filebashpath = "/Users/gwl/Documents/wordcount/aa/";

         HashMap<String, Integer> map = new HashMap<String, Integer>();

         printTen(filebashpath, map);

     }

     public static void printTen(String filepath, HashMap<String, Integer> map) {

         ArrayList<File> files = getListFiles(filepath);

         BufferedReader br = null;

         String line = null;

         try {

             for (File file : files) {

                 //对于swp、swo等这些不正常退出产生的文件进行排除

                 if (file.toString().contains(".sw")) {

                     continue;

                 }

                 br = new BufferedReader(new FileReader(file));

                 while ((line = br.readLine()) != null) {

                     line.toLowerCase();

                     //匹配分隔符，包括标点符号和一些特殊字符。

                     String reg1 = "\\,|\\。|\\，|\\；|\\ |\\#|\\$|\\^|\\&|\\*|\\?|\\.|\\!|\\:|\\(|\\)|\\+|\\=|\\[|\\]|\\;";

                     //输出的单词或语句必须是中文、大小写字母、数字、"-"、"_"组成。

                     String reg2 = "^[\\u4e00-\\u9fa5_a-zA-Z0-9]+$";

                     String str[] = line.split(reg1);

                     for (String s : str) {

                         if (s.matches(reg2)) {

                             if (!map.containsKey(s)) {

                                 map.put(s, 1);

                             } else {

                                 map.put(s, map.get(s) + 1);

                             }

                         }

                     }

                 }

             }

         } catch (IOException ioException) {

             ioException.printStackTrace();

         } finally {

             if (br != null) {

                 try {

                     br.close();

                 } catch (IOException e) {

                     e.printStackTrace();

                 }

             }

         }

         List<Entry<String, Integer>> list =

                 new ArrayList<Entry<String, Integer>>(map.entrySet());

         Collections.sort(list, new Comparator<Map.Entry<String, Integer>>() {

             // 降序排序

             public int compare(Entry<String, Integer> o1, Entry<String, Integer> o2) {

                 return o2.getValue().compareTo(o1.getValue());

             }

         });

         int i = 10;

         for (Entry<String, Integer> e : list) {

             if (i > 0) {

                 System.out.println(e.getKey() + ":" + e.getValue());

                 i--;

             }

         }

     }

     public static ArrayList<File> getListFiles(Object obj) {

         File directory = null;

         if (obj instanceof File) {

             directory = (File) obj;

         } else {

             directory = new File(obj.toString());

         }

         ArrayList<File> files = new ArrayList<File>();

         if (directory.isFile()) {

             files.add(directory);

             return files;

         } else if (directory.isDirectory()) {

             File[] fileArr = directory.listFiles();

             for (int i = 0; i < fileArr.length; i++) {

                 File fileOne = fileArr[i];

                 files.addAll(getListFiles(fileOne));

             }

         }

         return files;

     }

 }
注：分隔符正则匹配需要根据各自的情况进行定义。
当然数据量比较大的时候需要采用大数据计算，比如mapreduce，那样的话会简单很多。
秒客网

教你用java统计目录下所有文档的词频

相关文章