【文件属性】:
文件名称:textsummary:总结文本的无监督方法
文件大小:21.19MB
文件格式:ZIP
更新时间:2021-07-07 10:48:27
JavaScript
文本摘要
TextRank 的 Java 实现; 一种总结新闻文章的无监督方法。 基于 Rada Mihalcea 和 Paul Tarau 所做的工作。 方法论取自: :
使用 OpenNLP 库来分离句子和 Lucene 库来去除停用词和标记化。
TextSummary 的结果将与其他各种文本摘要器进行比较:
新闻文章使用:
Java文件列表
SummaryBot.java:运行汇总过程。
PageRanker.java:运行页面排名算法。
MiscUtils.java:在句子之间创建加权邻接矩阵。
LuceneSentenceProcessor:使用 Lucene 去除停用词并标记化。
OpenNLPSentenceProcessor:删除句子并使用词性标记。
testMain.java:总结存储在文本文件中的新闻文章的示例。
更多信息
http://www