NiceText:从网页中删除 HTML 混乱

时间:2021-05-30 22:55:58
【文件属性】:
文件名称:NiceText:从网页中删除 HTML 混乱
文件大小:168KB
文件格式:ZIP
更新时间:2021-05-30 22:55:58
Java 好文 NiceText会从网页中删除HTML Clutter,它会尝试找出网页上文本的集中程度,并使用试探法确定文本的主要部分。 #####Example 用法 NiceText 接口由 NTImpl 实现,它有一个方法extract以 URL( String类型)为参数,这里是一个简单的用例: NiceText niceText = new NTImpl (); String text = niceText . extract( " http://www.scientificamerican.com/article/common-parasite-could-manipulate-our-behavior/ " ); System . out . println(text); 这就是我得到的: 已经是订阅者或购买了此问题? 登入。 想象一个没有恐惧的世界。 不受日常苦恼的束缚,继
【文件预览】:
NiceText-master
----pom.xml(798B)
----data()
--------22.txt(3KB)
--------19.txt(10KB)
--------9.txt(1KB)
--------21.txt(6KB)
--------3.txt(3KB)
--------32.txt(7KB)
--------45.txt(3KB)
--------44.txt(4KB)
--------37.txt(1KB)
--------18.txt(6KB)
--------28.txt(7KB)
--------33.txt(11KB)
--------30.txt(7KB)
--------14.txt(5KB)
--------36.txt(759B)
--------12.txt(7KB)
--------10.txt(2KB)
--------7.txt(4KB)
--------39.txt(20KB)
--------34.txt(3KB)
--------2.txt(2KB)
--------23.txt(6KB)
--------13.txt(6KB)
--------6.txt(14KB)
--------17.txt(4KB)
--------11.txt(24KB)
--------35.txt(7KB)
--------4.txt(3KB)
--------0.txt(5KB)
--------43.txt(2KB)
--------27.txt(3KB)
--------5.txt(3KB)
--------1.txt(4KB)
--------26.txt(5KB)
--------25.txt(5KB)
--------24.txt(15KB)
--------16.txt(74KB)
--------31.txt(1KB)
--------42.txt(5KB)
--------40.txt(9KB)
--------15.txt(13KB)
--------8.txt(1KB)
--------29.txt(6KB)
--------38.txt(7KB)
--------41.txt(2KB)
--------20.txt(5KB)
----NiceText.iml(486B)
----src()
--------main()
----LICENSE.md(11KB)
----.gitignore(12B)
----README.md(1KB)

网友评论