urllib2下载网页的三种方法

时间:2023-03-09 06:16:23
urllib2下载网页的三种方法

1.最直接的方法

#-*- coding: utf-8 -*-
import urllib2
#直接请求
response = urllib2.urlopen('https://www.baidu.com')
#获取状态码,如果是200,表示获取成功
print response.getcode()
print(response.read())

2.添加data、http header

urllib2下载网页的三种方法

#-*- coding: utf-8 -*-
import urllib2
#创建request对象
url = 'http://www.baidu.com'
request = urllib2.Request(url)
#添加数据
request.add_data('a''') #添加http的header
request.add_header('User-Agent','Mozilla/5.0')
#发送请求获取结果
response = urllib2.urlopen(request)
print(response.read())

3.添加特殊情景的处理器

urllib2下载网页的三种方法

#-*- coding: utf-8 -*-
import urllib2
import cookielib
#创建cookie容器
cj = cookielib.CookieJar()
#创建一个opener
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
#给urllib2安装opener
urllib2.install_opener(opener)
#使用带有cookie的urllib2访问网页
response = urllib2.urlopen('https://www.baidu.com')
print(response.read())