【文件属性】:
文件名称:text-dedup:多合一文本重复数据删除
文件大小:42KB
文件格式:ZIP
更新时间:2021-04-11 13:44:47
nlp text-processing data-processing de-duplication Python
具有编辑距离,LSH或嵌入的文本重复数据删除。 (在制品)
用法
在重复项附近分组
import pandas as pd
from text_dedup . dedupers import EditDistanceSimilarityDeduper
from text_dedup import group_duplicates
df = pd . read_csv (...)
df_groups = group_duplicates (
df ,
deduper = EditDistanceSimilarityDeduper (
similarity_metric = "cosine" ,
threshold = 0.8 ,
k = 3 ),
column = "text" ,
target_colum
【文件预览】:
text-dedup-main
----poetry.lock(79KB)
----pyproject.toml(604B)
----coverage.svg(904B)
----banner.png(15KB)
----text_dedup()
--------dedupers()
--------__init__.py(3KB)
----LICENSE(1KB)
----.gitignore(2KB)
----tests.py(4KB)
----README.md(3KB)