python 实现页面数据抓取

时间:2021-12-09 08:16:40

http://hi.baidu.com/darkbreaker/item/5af1b4101d89386a71d5e8b9

其他的框架比如htmlparser 之类都是要建立正则表达,或是建立parse tree 来解析web页面。对于页面中有噪音(比如多余的无关的字符。诸如回车,这样的解析就不很方便 )   。 python自身带的html处理函数 ,个人感觉不太方便。 所以直接使用python的一个包beautiful soup来抓取web页面的数据。核心思想就是定位到指定的table ,然后定位到指定的tr,获取指定的td 。这种处理方式,有所限制。不过只要table的位置不发生大的变动。程序本身没有问题。 即使发生了变化。也可以很快的更新程序。 实现效果很好。

 

这里要说一下:

web页面数据抓取本身就是一个很复杂的事情。 常规做法就是建立解析树进行解析同时需要正则的去伪存真 。 现实中的框架都不是万能的。如果页面有很明显的table结构,那么完全可以用beautiful soup来做。

 

获取的数据抓取后势必为了以后的分析或是显示。 这里要选取支持多读多写的数据库。 sqlite 这种单机版的,平时玩玩可以,做应用就不行了。

 

python的PSP 做表现层不是很方便,可以用django来做。   python比perl容易学多了。 不过perl依然在大量使用着。

 

 

很久没有做j2EE的开发了。 最近新的语言频繁出现。java有点老了。不过java还是很强大的,至少我不会放弃它。

 

做完手头的tools 下一个就要涉及jboss的规则处理引擎drools了。 这个涉及到毕业涉及的项目, 难度较大,但是锻炼也会更大。为自己做一个圆满的毕设项目,也为公司贡献自己的成果。 加油吧。 时间不等人的。