【文件属性】:
文件名称:multsum:考虑了多个句子相似性度量的摘要系统
文件大小:107KB
文件格式:ZIP
更新时间:2021-05-11 00:22:43
Python
提取多文档摘要的子模优化的实现
奥洛夫·莫格伦(Olof Mogren)
(或者,有两种实现,其中一种在Java中,一种在Python中)。
先决条件
Java版本和Python版本都可以使用CLUTO二进制文件进行集群。 可以从以下位置免费下载:
如果不可用,Python版本将使用scipy中的kmeans。
两种版本都依赖于停用词列表(可以使用带有ROUGE的分发版本)。 在Java版本中,可以在命令行上指定。 请参阅下面的用法。
在撰写本文时,您必须在源代码中指定这些文件的路径。 对于Java版本,路径在SubSumBase.java中,对于Python版本,路径在subsum.py和subsum_clustering.py中。
同时使用几种相似性度量
同时指定多个相似性度量时,默认行为是将它们逐元素相乘。 这对应于内核方法领域中的内核的组合组合(即使这些相似性度量不一定是P
【文件预览】:
multsum-master
----python()
--------multsum_clustering_garbage.py(11KB)
--------multsum_prelistrefactor.py(34KB)
--------multsum.py(36KB)
--------multsum_clustering.py(6KB)
--------analyze_sentiment.py(3KB)
--------summarize_from_db.py(10KB)
--------backend_worker.py(8KB)
--------emotion_words_positive.txt(8KB)
--------male_names.txt(8KB)
--------swedish_stopwords.txt(557B)
--------multsum-test.py(36KB)
--------emotion_words_negative.txt(4KB)
--------english_stopwords.txt(4KB)
--------multsum_preprocess.py(14KB)
--------multsum_gui.py(20KB)
--------backend_client.py(5KB)
--------female_names.txt(29KB)
----.gitignore(21B)
----java()
--------.settings()
--------src()
--------.project(366B)
--------.classpath(295B)
----README.md(3KB)