网页数据采集

时间:2022-09-28 20:08:24
网页网址如下:http://tianqi.hi-go.com/ECIUI/Search?provice=TJ&key=%E5%A4%A9%E6%B4%A5%E5%B8%82%E9%9D%99%E6%97%AD%E9%87%91%E5%B1%9E%E6%9D%90%E6%96%99%E8%B4%B8%E6%98%93%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8
第一次进入这个网页,查看有代码时,要采集的html代码没有显示出来,刷新网页之后才显示,求大神解决
网页数据采集

刷新后
网页数据采集


不要沉底啊

12 个解决方案

#1


在线等,解决了加分

#2


用firefox的网络查看一下,上面的查询结果是用ajax来完成的,直接采ajax的地址就可以了

#3


正则表达式慢慢匹配。是采集网页的数据不,我没看题目,

#4


引用 2 楼 shoppingli 的回复:
用firefox的网络查看一下,上面的查询结果是用ajax来完成的,直接采ajax的地址就可以了


我看了网页上的js,但是没有看出来要采集的东西啊???大神详细指点一下

#5


引用 4 楼 u010174903 的回复:
Quote: 引用 2 楼 shoppingli 的回复:

用firefox的网络查看一下,上面的查询结果是用ajax来完成的,直接采ajax的地址就可以了

我看了网页上的js,但是没有看出来要采集的东西啊???


你自己用firebug查看网络,查询是用ajax POST来获取查询的,页面JS已经写好了这个逻辑(这个自己找找吧),自己用webrequest模拟这个过程。
如果你还是要直接抓,这个要等到有结果才能出现,因为查询会反回没有结果,判断result里面有没有数据,没有就一直访问页面,有就直接匹配出来

#6


我用360能直接显示出来,是不是你网速慢

#7


引用 5 楼 shoppingli 的回复:
Quote: 引用 4 楼 u010174903 的回复:

Quote: 引用 2 楼 shoppingli 的回复:

用firefox的网络查看一下,上面的查询结果是用ajax来完成的,直接采ajax的地址就可以了

我看了网页上的js,但是没有看出来要采集的东西啊???


你自己用firebug查看网络,查询是用ajax POST来获取查询的,页面JS已经写好了这个逻辑(这个自己找找吧),自己用webrequest模拟这个过程。
如果你还是要直接抓,这个要等到有结果才能出现,因为查询会反回没有结果,判断result里面有没有数据,没有就一直访问页面,有就直接匹配出来


我知道怎么对网页进行请求,但是不知道怎么在请求的时候执行网页中的js方法

#8


网页加载时有个脚本错误,估计这个就是无法获取完整html代码的原因,各位大神有解决的方法吗?

#9


这个脚本给数据的只能用webbrowser采集,循环遍历各个控件就可以了。

#10


引用 9 楼 ljaahh 的回复:
这个脚本给数据的只能用webbrowser采集,循环遍历各个控件就可以了。

遍历控件是什么意思,不懂?求大神指点

#11


就是说遍历网页上每一个元素,div,a等等,并判断是否是采集的,如果是就保存就可以了。

#12


该回复于2015-01-21 09:35:15被管理员删除

#1


在线等,解决了加分

#2


用firefox的网络查看一下,上面的查询结果是用ajax来完成的,直接采ajax的地址就可以了

#3


正则表达式慢慢匹配。是采集网页的数据不,我没看题目,

#4


引用 2 楼 shoppingli 的回复:
用firefox的网络查看一下,上面的查询结果是用ajax来完成的,直接采ajax的地址就可以了


我看了网页上的js,但是没有看出来要采集的东西啊???大神详细指点一下

#5


引用 4 楼 u010174903 的回复:
Quote: 引用 2 楼 shoppingli 的回复:

用firefox的网络查看一下,上面的查询结果是用ajax来完成的,直接采ajax的地址就可以了

我看了网页上的js,但是没有看出来要采集的东西啊???


你自己用firebug查看网络,查询是用ajax POST来获取查询的,页面JS已经写好了这个逻辑(这个自己找找吧),自己用webrequest模拟这个过程。
如果你还是要直接抓,这个要等到有结果才能出现,因为查询会反回没有结果,判断result里面有没有数据,没有就一直访问页面,有就直接匹配出来

#6


我用360能直接显示出来,是不是你网速慢

#7


引用 5 楼 shoppingli 的回复:
Quote: 引用 4 楼 u010174903 的回复:

Quote: 引用 2 楼 shoppingli 的回复:

用firefox的网络查看一下,上面的查询结果是用ajax来完成的,直接采ajax的地址就可以了

我看了网页上的js,但是没有看出来要采集的东西啊???


你自己用firebug查看网络,查询是用ajax POST来获取查询的,页面JS已经写好了这个逻辑(这个自己找找吧),自己用webrequest模拟这个过程。
如果你还是要直接抓,这个要等到有结果才能出现,因为查询会反回没有结果,判断result里面有没有数据,没有就一直访问页面,有就直接匹配出来


我知道怎么对网页进行请求,但是不知道怎么在请求的时候执行网页中的js方法

#8


网页加载时有个脚本错误,估计这个就是无法获取完整html代码的原因,各位大神有解决的方法吗?

#9


这个脚本给数据的只能用webbrowser采集,循环遍历各个控件就可以了。

#10


引用 9 楼 ljaahh 的回复:
这个脚本给数据的只能用webbrowser采集,循环遍历各个控件就可以了。

遍历控件是什么意思,不懂?求大神指点

#11


就是说遍历网页上每一个元素,div,a等等,并判断是否是采集的,如果是就保存就可以了。

#12


该回复于2015-01-21 09:35:15被管理员删除