咨询爬虫程序设计思路时间:2022-02-23 20:22:34最近接到一个任务,要将几十个网站,相同搜索关键字的内容全部提取出来,将当天发布的内容整合在一起作为一个列表发给领导,节省领导几十个网站搜索的时间,包括主题,时间,和对应的明细内容超链接 于是想到了用http post方式模拟输入搜索内容后,获取html内容,然后去分析找到对应的搜索列表,咨询一下大家: 1.有没有现成的开源源码? 2.怎么快速分析html内容,有没有第三方成熟的类? 2 个解决方案 #1 http://blog.****.net/closurer/article/details/73466685 这里有请求、解析的例子。 #2 引用 1 楼 closurer 的回复: http://blog.****.net/closurer/article/details/73466685 这里有请求、解析的例子。 看了下 写的很6.. 不过针对lz的问题 其实 就是webclient+HtmlAgilityPack 个人推荐 这个组合 #1 http://blog.****.net/closurer/article/details/73466685 这里有请求、解析的例子。 #2 引用 1 楼 closurer 的回复: http://blog.****.net/closurer/article/details/73466685 这里有请求、解析的例子。 看了下 写的很6.. 不过针对lz的问题 其实 就是webclient+HtmlAgilityPack 个人推荐 这个组合