01.内涵段子.zip

时间:2020-03-25 02:54:34
【文件属性】:
文件名称:01.内涵段子.zip
文件大小:6KB
文件格式:ZIP
更新时间:2020-03-25 02:54:34
爬虫 re urllib 内涵段子脑筋急转弯抓取 网址:http://www.neihan8.com 步骤: 1. 找URL规律 1.第1页:https://www.neihan-8.com/njjzw/index.html 2.第2页:https://www.neihan-8.com/njjzw/index_2.html 3.第3页:https://www.neihan-8.com/njjzw/index_3.html ... 除第1页 "https://www.neihan-8.com/njjzw/index_n.html" 2. 用正则匹配出题目和答案 每条急转弯结构:

为什么汉子不出门?

  因为一出门就变门外汉了
属于:脑筋急转弯
15
6
2316
正则表达式: p = re.compile(r'
(.*?)
',re.S) 3. 代码 1. 发请求 2. 用正则匹配 3. 保存爬取内容
【文件预览】:
01.内涵段子
----__pycache__()
--------getheaders.cpython-36.pyc(7KB)
----getheaders.py(8KB)
----neihanduanzi.py(2KB)
----readme.txt(1KB)

网友评论