python 实现页面数据抓取

http://hi.baidu.com/darkbreaker/item/5af1b4101d89386a71d5e8b9

其他的框架比如htmlparser 之类都是要建立正则表达，或是建立parse tree 来解析web页面。对于页面中有噪音（比如多余的无关的字符。诸如回车，这样的解析就不很方便）。 python自身带的html处理函数，个人感觉不太方便。所以直接使用python的一个包beautiful soup来抓取web页面的数据。核心思想就是定位到指定的table ，然后定位到指定的tr，获取指定的td 。这种处理方式，有所限制。不过只要table的位置不发生大的变动。程序本身没有问题。即使发生了变化。也可以很快的更新程序。实现效果很好。

这里要说一下：

web页面数据抓取本身就是一个很复杂的事情。常规做法就是建立解析树进行解析同时需要正则的去伪存真。现实中的框架都不是万能的。如果页面有很明显的table结构，那么完全可以用beautiful soup来做。

获取的数据抓取后势必为了以后的分析或是显示。这里要选取支持多读多写的数据库。 sqlite 这种单机版的，平时玩玩可以，做应用就不行了。

python的PSP 做表现层不是很方便，可以用django来做。 python比perl容易学多了。不过perl依然在大量使用着。

很久没有做j2EE的开发了。最近新的语言频繁出现。java有点老了。不过java还是很强大的，至少我不会放弃它。

做完手头的tools 下一个就要涉及jboss的规则处理引擎drools了。这个涉及到毕业涉及的项目，难度较大，但是锻炼也会更大。为自己做一个圆满的毕设项目，也为公司贡献自己的成果。加油吧。时间不等人的。

秒客网

python 实现页面数据抓取

相关文章