分词相关文章_第5页

Lucene学习——IKAnalyzer中文分词
时间：2023-11-11 11:43:59
一、环境1、平台：MyEclipse8.5/JDK1.52、开源框架：Lucene3.6.1/IKAnalyzer20123、目的：测试IKAnalyzer的分词效果二、开发调试1、下载框架1）IKAnalyzer：http://code.google.com/p/ik-analyzer/downl...
2.IKAnalyzer 中文分词器配置和使用
时间：2023-11-11 11:43:02
一、配置IKAnalyzer 中文分词器配置，简单，超简单。IKAnalyzer 中文分词器下载，注意版本问题，貌似出现向下不兼容的问题，solr的客户端界面Logging会提示错误。给出我配置成功的版本IK Analyzer 2012FF_hf1（包含源码和中文使用手册），我的solr是4.7的，...
Solr4.0+IKAnalyzer中文分词安装(转)
时间：2023-11-11 11:31:26
有近2年没接触Solr跟Lucene了,这2年自己跟solr/lucene都发生了很多变化。不过有种疏途同归的感觉,那就是都向分布式/云和监控靠了。2年前接触了solrcloud,那时大概玩了一周。那时很想玩cloud,但发现solrcloud并不是具有那种cloud。于是放弃了。现在发现solr4...
linux（centos 7）下安装elasticsearch 5 的 IK 分词器
时间：2023-11-11 09:57:57
（一）到IK 下载对应的版本（直接下载release版本，避免mvn打包），下载后是一个zip压缩包（二）将压缩包上传至elasticsearch 的安装目录下的plugins下，进行解压，运行如下unzip elasticsearch-analysis-ik-5.5.2.zip #解压后文件夹...
python结巴分词余弦相似度算法实现
时间：2023-11-10 22:12:46
过余弦相似度算法计算两个字符串之间的相关度，来对关键词进行归类、重写标题、文章伪原创等功能，让你目瞪口呆。以下案例使用的母词文件均为txt文件，两种格式：一种内容是纯关键词的txt，每行一个关键词就好；另一种是关键词加指数的txt，关键词和指数之前用tab键分隔，一行一对关键词。代码附上：# -*...
通过lucene的StandardAnalyzer分析器来了解分词
时间：2023-10-16 16:28:20
本文转载http://blog.csdn.net/jspamd/article/details/8194919不同的Lucene分析器Analyzer，它对TokenStream进行分词的方法是不同的，这需要根据具体的语言来选择。比如英文，一般是通过空格来分割词条，而中文汉字则不能通过这种方式，最简...
开源中文分词工具探析（四）：THULAC
时间：2023-09-12 16:58:26
THULAC是一款相当不错的中文分词工具，准确率高、分词速度蛮快的；并且在工程上做了很多优化，比如：用DAT存储训练特征（压缩训练模型），加入了标点符号的特征（提高分词准确率）等。【开源中文分词工具探析】系列：开源中文分词工具探析（一）：ICTCLAS (NLPIR)开源中文分词工具探析（二）：Ji...
基于开源中文分词工具pkuseg-python，我用张小龙的3万字演讲做了测试
时间：2023-09-12 16:58:20
做过搜索的同学都知道，分词的好坏直接决定了搜索的质量，在英文中分词比中文要简单，因为英文是一个个单词通过空格来划分每个词的，而中文都一个个句子，单独一个汉字没有任何意义，必须联系前后文字才能正确表达它的意思。因此，中文分词技术一直是nlp领域中的一大挑战。Python 中有个比较著名的分词库是结巴分...
开源中文分词工具探析（七）：LTP
时间：2023-09-12 16:58:44
LTP是哈工大开源的一套中文语言处理系统，涵盖了基本功能：分词、词性标注、命名实体识别、依存句法分析、语义角色标注、语义依存分析等。【开源中文分词工具探析】系列：开源中文分词工具探析（一）：ICTCLAS (NLPIR)开源中文分词工具探析（二）：Jieba开源中文分词工具探析（三）：Ansj开源中...
我与solr(六)--solr6.0配置中文分词器IK Analyzer
时间：2023-09-08 11:02:26
转自：http://blog.csdn.net/linzhiqiang0316/article/details/51554217，表示感谢。由于前面没有设置分词器，以至于查询的结果出入比较大，并且无法进行正确的高亮显示。现在配置一下分词器来解决相关问题。solr6.0中进行中文分词器IK Analy...
solr 7+tomcat 8 + mysql实现solr 7基本使用(安装、集成中文分词器、定时同步数据库数据以及项目集成)
时间：2023-08-28 20:30:26
基本说明Solr是一个开源项目，基于Lucene的搜索服务器，一般用于高级的搜索功能；solr还支持各种插件(如中文分词器等)，便于做多样化功能的集成；提供页面操作，查看日志和配置信息，功能全面。solr 7 + tomcat 8实现solr 7的安装Solr自带集成jetty，但是一般都不直接使用...
Sphinx + Coreseek 实现中文分词搜索
时间：2023-08-27 23:58:32
Sphinx + Coreseek 实现中文分词搜索Sphinx Coreseek 实现中文分词搜索全文检索1 全文检索 vs 数据库2 中文检索 vs 汉化检索3 自建全文搜索与使用Google等第三方站点提供的站内全文搜索的差别SphinxCoreseek介绍Coreseek安装使用1....
中文分词工具探析（一）：ICTCLAS (NLPIR)
时间：2023-08-14 18:58:08
【开源中文分词工具探析】系列：开源中文分词工具探析（一）：ICTCLAS (NLPIR)开源中文分词工具探析（二）：Jieba开源中文分词工具探析（三）：Ansj开源中文分词工具探析（四）：THULAC开源中文分词工具探析（五）：FNLP开源中文分词工具探析（六）：Stanford CoreNLP开...
ZH奶酪：Java调用NLPIR汉语分词系统
时间：2023-08-14 11:10:44
NLPIR工具支持自定义词表；可以离线使用；下载地址：http://ictclas.nlpir.org/newsdownloads?DocId=389在线演示：http://ictclas.nlpir.org/nlpir/自然语言处理与信息检索共享平台：（nlpir相关的一些软件、文档、论文、语料库...
Elastic Search中normalization和分词器
时间：2023-08-01 23:41:32
为key_words提供更加完整的倒排索引。如：时态转化（like | liked），单复数转化（man | men），全写简写（china | cn），同义词（small | little）等。如：china 搜索时，如果条件为cn是否可搜索到。如：dogs，搜索时，条件为dog是否可搜索到数据。...
ElasticSearch 中文分词插件ik 的使用
时间：2023-06-26 22:39:14
下载IK 的版本要与 Elasticsearch 的版本一致，因此下载 7.1.0 版本。安装1、中文分词插件下载地址：https://github.com/medcl/elasticsearch-analysis-ik2、拼音分词插件下载地址：https://github.com/medcl/el...
沉淀再出发：ElasticSearch的中文分词器ik
时间：2023-06-26 22:23:11
沉淀再出发：ElasticSearch的中文分词器ik一、前言为什么要在elasticsearch中要使用ik这样的中文分词呢，那是因为es提供的分词是英文分词，对于中文的分词就做的非常不好了，因此我们需要一个中文分词器来用于搜索和使用。二、IK分词器的安装和使用 2.1、安装ik 我们可...
如何在Elasticsearch中安装中文分词器(IK)和拼音分词器？
时间：2023-06-26 22:09:05
声明：我使用的Elasticsearch的版本是5.4.0，安装分词器前请先安装maven一：安装mavenhttps://github.com/apache/maven说明：安装maven需要java1.7+编译安装分词器时，可能会报错，报错信息如下：[ERROR] COMPILATION ERR...
Elasticsearch如何安装中文分词插件ik
时间：2023-06-26 22:08:07
elasticsearch-analysis-ik 是一款中文的分词插件，支持自定义词库。安装步骤： 1、到github网站下载源代码，网站地址为：https://github.com/medcl/elasticsearch-analysis-ik 右侧下方有一个按钮“Download ZIP”，...
linux环境下安装sphinx中文支持分词搜索(coreseek+mmseg)
时间：2023-06-23 12:57:20
linux环境下安装sphinx中文支持分词搜索(coreseek+mmseg) 2013-11-10 16:51:14分类：系统运维为什么要写这篇文章？答：通过常规的三大步（./configure,make,make install）的编译安装mmseg时，总是出现找不到src/Makefil...

1 2 3 4 5