PolyFuzz:模糊字符串匹配,分组和评估

时间:2021-04-01 08:01:54
【文件属性】:
文件名称:PolyFuzz:模糊字符串匹配,分组和评估
文件大小:2.45MB
文件格式:ZIP
更新时间:2021-04-01 08:01:54
embeddings edit-distance levenshtein-distance tf-idf bert PolyFuzz执行模糊字符串匹配,字符串分组,并包含广泛的评估功能。 PolyFuzz旨在将模糊字符串匹配技术整合到一个框架中。 当前,方法包括各种编辑距离度量,基于字符的n-gram TF-IDF,词嵌入技术(例如FastText和GloVe)以及 :hugging_face: 变压器嵌入物。 相应的媒体帖子可以在找到。 安装 您可以通过pip安装PolyFuzz : pip install polyfuzz 这将安装基本依赖项。 如果要加快余弦相似度比较并减少内存使用,可以使用通过以下方式安装的sparse_dot_topn : pip install polyfuzz[fast] 如果您想利用 :hugging_face: 变形金刚,安装其他额外的Flair依赖项: pip install polyfuzz[flair] 要安装所有其他依赖项: pip install polyfuzz[all] 安装问题您可能会
【文件预览】:
PolyFuzz-master
----.gitattributes(31B)
----.github()
--------workflows()
----notebooks()
--------Overview.ipynb(143KB)
----images()
--------editdistance.png(20KB)
--------operations.png(62KB)
--------logo.png(33KB)
--------tfidf.png(97KB)
--------multiple_models.png(272KB)
----polyfuzz()
--------models()
--------error.py(591B)
--------utils.py(1KB)
--------linkage.py(2KB)
--------__init__.py(53B)
--------datasets()
--------polyfuzz.py(12KB)
--------metrics.py(6KB)
----mkdocs.yml(1KB)
----LICENSE(1KB)
----setup.py(2KB)
----README.md(9KB)
----Makefile(497B)
----data()
--------movie_titles.json(1.72MB)
--------company_names.json(2.72MB)
----docs()
--------index.md(947B)
--------images()
--------releases.md(626B)
--------tutorial()
--------api()
--------logo.png(33KB)
--------style.css(339B)
----tests()
--------to_list.npy(7KB)
--------models()
--------utils.py(173B)
--------__init__.py(0B)
--------test_linkage.py(961B)
--------test_metrics.py(998B)
--------from_list.npy(14KB)
--------test_polyfuzz.py(4KB)
----.gitignore(916B)

网友评论