咨询爬虫程序设计思路

时间:2022-02-23 20:22:34
最近接到一个任务,要将几十个网站,相同搜索关键字的内容全部提取出来,将当天发布的内容整合在一起作为一个列表发给领导,节省领导几十个网站搜索的时间,包括主题,时间,和对应的明细内容超链接
     于是想到了用http post方式模拟输入搜索内容后,获取html内容,然后去分析找到对应的搜索列表,咨询一下大家:
      1.有没有现成的开源源码?
       2.怎么快速分析html内容,有没有第三方成熟的类?

2 个解决方案

#1


http://blog.****.net/closurer/article/details/73466685

这里有请求、解析的例子。

#2


引用 1 楼 closurer 的回复:
http://blog.****.net/closurer/article/details/73466685

这里有请求、解析的例子。


看了下  写的很6..

不过针对lz的问题 其实 就是webclient+HtmlAgilityPack 个人推荐 这个组合

#1


http://blog.****.net/closurer/article/details/73466685

这里有请求、解析的例子。

#2


引用 1 楼 closurer 的回复:
http://blog.****.net/closurer/article/details/73466685

这里有请求、解析的例子。


看了下  写的很6..

不过针对lz的问题 其实 就是webclient+HtmlAgilityPack 个人推荐 这个组合