【文件属性】:
文件名称:python-beautifulsoup-pool:带有线程池的Python Web Scraping
文件大小:2KB
文件格式:ZIP
更新时间:2021-05-19 10:06:34
Python
python-beautifulsoup-pool
使用Python多处理池技术的Python Web抓取从论坛线程中输出具有多个页面的所有帖子的.txt文件。
此特定文件将刮擦与所有与表格4 ATF(酒精-烟草-火器)的等待时间相关的所有论坛帖子,以等待原始数据源在数据处理引擎(火花等)中进一步处理时间的计算。
场地
数据中心
小路
基础项目路径
BASE_URL
您希望抓取的论坛/主题的基本URL
NUM_PAGES
主题/主题中的总页数
POOL_SIZE
您的多处理程序的最大池大小
【文件预览】:
python-beautifulsoup-pool-master
----README.md(661B)
----form4waittimes-multithread.py(1KB)