第四篇 - 爬取前程无忧python相关工作

环境：python3 pycharm

模块：requests,xlwt,urllib.request,re

正常三步走：

1.获取源代码

2.匹配源代码，获得目标数据

3.存储到文件中

直接上代码，列举两种获取源代码的方式，存储3中文件的方式。*选择即可。

第一个标红部分引号里面的是网站url，太长就不贴上去了。查找方式：百度前程无忧官网，搜索python，点击页面2，将地址栏的地址粘贴到单引号里面。找到2.html部分，将2替换成{}即可。

第二个标红部分得到数字，是想获得数据的页数，根据需求自己填。

# import requests

import re         #用于正则匹配

# import xlwt     #excel表格需要用到

import urllib.request

#1.用requests模块获取网页html源码

# def get_content(page):

#     url = ''.format(page)

#     html = requests.get(url).content.decode('gbk')

#     return html

#1.用urllib模块获取源代码

def get_content(page):

    url = ''.format(page)      ------------1

    html = urllib.request.urlopen(url).read().decode('gbk')

    return html

#2.获取职位，薪资，公司名称

def get_Data(html):

    reg = re.compile(r'class="t1 ".*?<a target="_blank" title="(.*?)".*?<span class="t2"><a target="_blank" '

                     r'title="(.*?)".*?<span class="t3">(.*?)</span>.*?<span class="t4">(.*?)</span>.*?'

                     r'<span class="t5">(.*?)</span>',re.S)

    items = re.findall(reg,html)

    return items

#3.存储到.csv文件中

def save_file_csv(items):

    import csv

    csv_file = open('job.csv', 'w', newline='')

    writer = csv.writer(csv_file)

    writer.writerow(('职位名称','公司名称','公司地址','薪资','日期'))

    for item in items:

        writer.writerow(item)

#3.存储到excel表格中

# def save_file_excel(items):

#     newTable = 'jobs.xls'

#     wb = xlwt.Workbook(encoding='utf-8')#创建excel文件

#     ws = wb.add_sheet('job')#去创建表

#     headData = ['职位名称','公司名称','公司地址','薪资','日期']

#     index = 1

#     for colnum in range(5):

#         ws.write(0,colnum,headData[colnum],xlwt.easyxf('font:bold on'))

#     for item in items:

#         for j in range(len(item)):

#                 ws.write(index,j,item[j])

#         index += 1

#     wb.save(newTable)

#3.存储到txt文件中

# def save_file_txt(items):

#     with open('job.txt','w') as f:

#         for item in items:

#             for j in range(len(item)):

#                 f.write(item[j])

#                 f.write('        ')

#             f.write('\n')

if __name__ == '__main__':

    for i in range(1,):     ---------------2

        html = get_content(i)

        items = get_Data(html)

        save_file_csv(items)