crawling_the_web:《虫术

时间:2024-04-11 21:07:09
【文件属性】:

文件名称:crawling_the_web:《虫术

文件大小:1.65MB

文件格式:ZIP

更新时间:2024-04-11 21:07:09

系统开源

《虫术:Python绝技》随书源码 内容摘要 本书以大数据应用方面常用的语言Python为基础,从网络爬虫的实现原理入手,逐步引导读者进入网络爬虫的世界。在各类爬虫框架中,将Scrapy作为轴心,从多个维度揭开例如,爬取规则的编制技巧,设计高速爬虫,如何让爬虫更“聪明”地获取数据,将海量数据进行分布式存储的技术,设计具有高隐蔽性的爬虫,规模,高并发的分布式爬虫技术。 目录 第1章爬虫初步 1.1爬虫与大数据 1.1.1大数据架构 1.1.2爬虫的作用与层次 1.1.3 Python与爬虫 1.1.4 Python的网络爬虫框架 1.1.5虫术技术路线图 1.2实例:简单的爬虫 1.3内容分析进阶 1.3.1选择器 1.3.2深入BeautifulSoup 1.3.3元素的搜寻 1.3.4乱码与中文编码 1.4新闻供稿的爬取实例 1.5小结 第2章Scrapy基础知识 2.1 Scrapy


网友评论