【文件属性】:
文件名称:金油条网页正文提取器
文件大小:20KB
文件格式:RAR
更新时间:2011-08-24 07:56:06
提取 正文提取 网页 蜘蛛 采集
该DEMO文件是基于文本距离去噪,精度默认是20,用于网站的新闻,文章等的正文提取,特别结合蜘蛛用处广泛。由于是一个算法demo,所以没有做过大的功能扩展,编码大部分可以自动识别。
最新版本和在线演示。详见:
http://www.shoula.net/ParseContent
如果要最新版本,或者对这个感兴趣的。
可以和我联系或者加入
QQ群:50453294. QQ:6782435
金油条
【文件预览】:
parseContent.exe
网友评论
- 是可执行程序, 没有说清楚....对不用windows的人来说, 一个exe文件一点意义都没有
- 怎么是可执行程序啊,要是源代码就更好了
- 执行性文件 ,没有源代码
- 看了下效果,还不错,
- 值得参考。。。
- 要是源码就好了
- 有一定的效果,不过滤得一般
- 效果一般,不过还是谢谢,要是有源码就好了!
- 不是源代码。有点可不太好。
- 怎么是可执行程序啊,要是源代码就更好了