文件名称:DocSimilarityAlgorithm:基于Lucene、TF-IDF、余弦相似度的文本相似度算法
文件大小:1.8MB
文件格式:ZIP
更新时间:2024-05-18 21:38:52
Java
文本相似度算法 基于Lucene3.5版本、TF-IDF、余弦相似实现的文本相似度算法。 详细介绍《》 样本库提取 使用webmagic爬取华为应用市场应用的描述信息,当做样本。 在工程的conf/doc目录有1000多个应用样本。 具体代码实现在工程下面的AppStoreProcessor.java类 分词 在使用Lucene进行TF-IDF计算之前,需要先对长文本进行分词,选取的是jieba的java版本。