PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100(实战项目一)

时间:2023-02-26 10:07:45

利用Requests+正则表达式爬取猫眼电影top100

  • 目标站点分析

  • 流程框架

  • PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100(实战项目一)
  • 爬虫实战

  1. 使用requests库获取top100首页:

    import requests 
    
    def get_one_page(url):
    response = requests.get(url)
    if response.status_code == 200:
    return response.text
    return None def main():
    url = 'http://maoyan.com/board/4?offsest=0'
    html = get_one_page(url)
    print(html) if __name__ == '__main__':
    main()
    <!DOCTYPE html>
    
    <!--[if IE 8]><html class="ie8"><![endif]-->
    <!--[if IE 9]><html class="ie9"><![endif]-->
    <!--[if gt IE 9]><!--><html><!--<![endif]-->
    <head>
    <title>TOP100榜 - 猫眼电影 - 一网打尽好电影</title> <link rel="dns-prefetch" href="//p0.meituan.net" />
    <link rel="dns-prefetch" href="//p1.meituan.net" />
    <link rel="dns-prefetch" href="//ms0.meituan.net" />
    <link rel="dns-prefetch" href="//ms1.meituan.net" />
    <link rel="dns-prefetch" href="//analytics.meituan.com" />
    <link rel="dns-prefetch" href="//report.meituan.com" />
    <link rel="dns-prefetch" href="//frep.meituan.com" /> <meta charset="utf-8">
    <meta name="keywords" content="猫眼电影,电影排行榜,热映口碑榜,最受期待榜,国内票房榜,北美票房榜,猫眼TOP100">
    <meta name="description" content="猫眼电影热门榜单,包括热映口碑榜,最受期待榜,国内票房榜,北美票房榜,猫眼TOP100,多维度为用户进行选片决策">
    <meta http-equiv="cleartype" content="yes" />
    <meta http-equiv="X-UA-Compatible" content="IE=edge" />
    <meta name="renderer" content="webkit" /> <meta name="HandheldFriendly" content="true" />
    <meta name="format-detection" content="email=no" />
    <meta name="format-detection" content="telephone=no" />
    <meta name="viewport" content="width=device-width, initial-scale=1"> <script>
    cid = "c_wx6zb55";
    ci = 113;
    val = {"subnavId":4}; window.system = {}; window.openPlatform = '';
    window.openPlatformSub = ''; </script>
    <link rel="stylesheet" href="//ms0.meituan.net/mywww/common.4b838ec3.css"/>
    <link rel="stylesheet" href="//ms0.meituan.net/mywww/board-index.92a06072.css"/>
    <script src="//ms0.meituan.net/mywww/stat.74891044.js"></script>
    <script>if(window.devicePixelRatio >= 2) { document.write('<link rel="stylesheet" href="//ms0.meituan.net/mywww/image-2x.8ba7074d.css"/>') }</script>
    <style>
    @font-face {
    font-family: stonefont;
    src: url('//vfile.meituan.net/colorstone/5525763b9685a6805d60e7d1e32ceeef3168.eot');
    src: url('//vfile.meituan.net/colorstone/5525763b9685a6805d60e7d1e32ceeef3168.eot?#iefix') format('embedded-opentype'),
    url('//vfile.meituan.net/colorstone/9eeee9cef82609251d9dc337b48f0d102080.woff') format('woff');
    } .stonefont {
    font-family: stonefont;
    }
    </style>
    </head>
    <body> <div class="header">
    <div class="header-inner">
    <a href="/" class="logo" data-act="icon-click"></a>
    <div class="city-container" data-val="{currentcityid:113 }">
    <div class="city-selected">
    <div class="city-name">
    中山
    <span class="caret"></span>
    </div>
    </div>
    <div class="city-list" data-val="{ localcityid: 113 }">
    <div class="city-list-header">定位城市:<a class="js-geo-city">中山</a></div> </div>
    </div> <div class="nav">
    <ul class="navbar">
    <li><a href="/" data-act="home-click" >首页</a></li>
    <li><a href="/films" data-act="movies-click" >电影</a></li>
    <li><a href="/cinemas" data-act="cinemas-click" >影院</a></li> <li><a href="/board" data-act="board-click" class="active" >榜单</a></li>
    <li><a href="/news" data-act="hotNews-click" >热点</a></li>
    </ul>
    </div> <div class="user-info">
    <div class="user-avatar J-login">
    <img src="http://p0.meituan.net/movie/7dd82a16316ab32c8359debdb04396ef2897.png">
    <span class="caret"></span>
    <ul class="user-menu">
    <li><a href="javascript:void 0">登录</a></li>
    </ul>
    </div>
    </div> <form action="/query" target="_blank" class="search-form" data-actform="search-click">
    <input name="kw" class="search" type="search" maxlength="" placeholder="找影视剧、影人、影院" autocomplete="off">
    <input class="submit" type="submit" value="">
    </form> <div class="app-download">
    <a href="/app" target="_blank">
    <span class="iphone-icon"></span>
    <span class="apptext">APP下载</span>
    <span class="caret"></span>
    <div class="download-icon">
    <p class="down-title">扫码下载APP</p>
    <p class='down-content'>选座更优惠</p>
    </div>
    </a>
    </div>
    </div>
    </div>
    <div class="header-placeholder"></div> <div class="subnav">
    <ul class="navbar">
    <li>
    <a data-act="subnav-click" data-val="{subnavClick:7}"
    href="/board/7"
    >热映口碑榜</a>
    </li>
    <li>
    <a data-act="subnav-click" data-val="{subnavClick:6}"
    href="/board/6"
    >最受期待榜</a>
    </li>
    <li>
    <a data-act="subnav-click" data-val="{subnavClick:1}"
    href="/board/1"
    >国内票房榜</a>
    </li>
    <li>
    <a data-act="subnav-click" data-val="{subnavClick:2}"
    href="/board/2"
    >北美票房榜</a>
    </li>
    <li>
    <a data-act="subnav-click" data-val="{subnavClick:4}"
    data-state-val="{subnavId:4}"
    class="active" href="javascript:void(0);"
    >TOP100榜</a>
    </li>
    </ul>
    </div> <div class="container" id="app" class="page-board/index" > <div class="content">
    <div class="wrapper">
    <div class="main">
    <p class="update-time">2018-08-09<span class="has-fresh-text">已更新</span></p>
    <p class="board-content">榜单规则:将猫眼电影库中的经典影片,按照评分和评分人数从高到低综合排序取前100名,每天上午10点更新。相关数据来源于“猫眼电影库”。</p>
    <dl class="board-wrapper">
    <dd>
    <i class="board-index board-index-1">1</i>
    <a href="/films/1203" title="霸王别姬" class="image-link" data-act="boarditem-click" data-val="{movieId:1203}">
    <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
    <img data-src="http://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c" alt="霸王别姬" class="board-img" />
    </a>
    <div class="board-item-main">
    <div class="board-item-content">
    <div class="movie-item-info">
    <p class="name"><a href="/films/1203" title="霸王别姬" data-act="boarditem-click" data-val="{movieId:1203}">霸王别姬</a></p>
    <p class="star">
    主演:张国荣,张丰毅,巩俐
    </p>
    <p class="releasetime">上映时间:1993-01-01(中国香港)</p> </div>
    <div class="movie-item-number score-num">
    <p class="score"><i class="integer">9.</i><i class="fraction">6</i></p>
    </div> </div>
    </div> </dd>
    <dd>
    <i class="board-index board-index-2">2</i>
    <a href="/films/1297" title="肖申克的救赎" class="image-link" data-act="boarditem-click" data-val="{movieId:1297}">
    <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
    <img data-src="http://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@160w_220h_1e_1c" alt="肖申克的救赎" class="board-img" />
    </a>
    <div class="board-item-main">
    <div class="board-item-content">
    <div class="movie-item-info">
    <p class="name"><a href="/films/1297" title="肖申克的救赎" data-act="boarditem-click" data-val="{movieId:1297}">肖申克的救赎</a></p>
    <p class="star">
    主演:蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿
    </p>
    <p class="releasetime">上映时间:1994-10-14(美国)</p> </div>
    <div class="movie-item-number score-num">
    <p class="score"><i class="integer">9.</i><i class="fraction">5</i></p>
    </div> </div>
    </div> </dd>
    <dd>
    <i class="board-index board-index-3">3</i>
    <a href="/films/2641" title="罗马假日" class="image-link" data-act="boarditem-click" data-val="{movieId:2641}">
    <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
    <img data-src="http://p0.meituan.net/movie/54617769d96807e4d81804284ffe2a27239007.jpg@160w_220h_1e_1c" alt="罗马假日" class="board-img" />
    </a>
    <div class="board-item-main">
    <div class="board-item-content">
    <div class="movie-item-info">
    <p class="name"><a href="/films/2641" title="罗马假日" data-act="boarditem-click" data-val="{movieId:2641}">罗马假日</a></p>
    <p class="star">
    主演:格利高里·派克,奥黛丽·赫本,埃迪·艾伯特
    </p>
    <p class="releasetime">上映时间:1953-09-02(美国)</p> </div>
    <div class="movie-item-number score-num">
    <p class="score"><i class="integer">9.</i><i class="fraction">1</i></p>
    </div> </div>
    </div> </dd>
    <dd>
    <i class="board-index board-index-4">4</i>
    <a href="/films/4055" title="这个杀手不太冷" class="image-link" data-act="boarditem-click" data-val="{movieId:4055}">
    <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
    <img data-src="http://p0.meituan.net/movie/e55ec5d18ccc83ba7db68caae54f165f95924.jpg@160w_220h_1e_1c" alt="这个杀手不太冷" class="board-img" />
    </a>
    <div class="board-item-main">
    <div class="board-item-content">
    <div class="movie-item-info">
    <p class="name"><a href="/films/4055" title="这个杀手不太冷" data-act="boarditem-click" data-val="{movieId:4055}">这个杀手不太冷</a></p>
    <p class="star">
    主演:让·雷诺,加里·奥德曼,娜塔莉·波特曼
    </p>
    <p class="releasetime">上映时间:1994-09-14(法国)</p> </div>
    <div class="movie-item-number score-num">
    <p class="score"><i class="integer">9.</i><i class="fraction">5</i></p>
    </div> </div>
    </div> </dd>
    <dd>
    <i class="board-index board-index-5">5</i>
    <a href="/films/1247" title="教父" class="image-link" data-act="boarditem-click" data-val="{movieId:1247}">
    <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
    <img data-src="http://p1.meituan.net/movie/f5a924f362f050881f2b8f82e852747c118515.jpg@160w_220h_1e_1c" alt="教父" class="board-img" />
    </a>
    <div class="board-item-main">
    <div class="board-item-content">
    <div class="movie-item-info">
    <p class="name"><a href="/films/1247" title="教父" data-act="boarditem-click" data-val="{movieId:1247}">教父</a></p>
    <p class="star">
    主演:马龙·白兰度,阿尔·帕西诺,詹姆斯·肯恩
    </p>
    <p class="releasetime">上映时间:1972-03-24(美国)</p> </div>
    <div class="movie-item-number score-num">
    <p class="score"><i class="integer">9.</i><i class="fraction">3</i></p>
    </div> </div>
    </div> </dd>
    <dd>
    <i class="board-index board-index-6">6</i>
    <a href="/films/267" title="泰坦尼克号" class="image-link" data-act="boarditem-click" data-val="{movieId:267}">
    <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
    <img data-src="http://p1.meituan.net/movie/0699ac97c82cf01638aa5023562d6134351277.jpg@160w_220h_1e_1c" alt="泰坦尼克号" class="board-img" />
    </a>
    <div class="board-item-main">
    <div class="board-item-content">
    <div class="movie-item-info">
    <p class="name"><a href="/films/267" title="泰坦尼克号" data-act="boarditem-click" data-val="{movieId:267}">泰坦尼克号</a></p>
    <p class="star">
    主演:莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩
    </p>
    <p class="releasetime">上映时间:1998-04-03</p> </div>
    <div class="movie-item-number score-num">
    <p class="score"><i class="integer">9.</i><i class="fraction">5</i></p>
    </div> </div>
    </div> </dd>
    <dd>
    <i class="board-index board-index-7">7</i>
    <a href="/films/123" title="龙猫" class="image-link" data-act="boarditem-click" data-val="{movieId:123}">
    <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
    <img data-src="http://p0.meituan.net/movie/b03e9c52c585635d2cb6a3f7c08a8a50112441.jpg@160w_220h_1e_1c" alt="龙猫" class="board-img" />
    </a>
    <div class="board-item-main">
    <div class="board-item-content">
    <div class="movie-item-info">
    <p class="name"><a href="/films/123" title="龙猫" data-act="boarditem-click" data-val="{movieId:123}">龙猫</a></p>
    <p class="star">
    主演:日高法子,坂本千夏,糸井重里
    </p>
    <p class="releasetime">上映时间:1988-04-16(日本)</p> </div>
    <div class="movie-item-number score-num">
    <p class="score"><i class="integer">9.</i><i class="fraction">2</i></p>
    </div> </div>
    </div> </dd>
    <dd>
    <i class="board-index board-index-8">8</i>
    <a href="/films/837" title="唐伯虎点秋香" class="image-link" data-act="boarditem-click" data-val="{movieId:837}">
    <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
    <img data-src="http://p0.meituan.net/movie/da64660f82b98cdc1b8a3804e69609e041108.jpg@160w_220h_1e_1c" alt="唐伯虎点秋香" class="board-img" />
    </a>
    <div class="board-item-main">
    <div class="board-item-content">
    <div class="movie-item-info">
    <p class="name"><a href="/films/837" title="唐伯虎点秋香" data-act="boarditem-click" data-val="{movieId:837}">唐伯虎点秋香</a></p>
    <p class="star">
    主演:周星驰,巩俐,郑佩佩
    </p>
    <p class="releasetime">上映时间:1993-07-01(中国香港)</p> </div>
    <div class="movie-item-number score-num">
    <p class="score"><i class="integer">9.</i><i class="fraction">2</i></p>
    </div> </div>
    </div> </dd>
    <dd>
    <i class="board-index board-index-9">9</i>
    <a href="/films/1212" title="千与千寻" class="image-link" data-act="boarditem-click" data-val="{movieId:1212}">
    <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
    <img data-src="http://p0.meituan.net/movie/b076ce63e9860ecf1ee9839badee5228329384.jpg@160w_220h_1e_1c" alt="千与千寻" class="board-img" />
    </a>
    <div class="board-item-main">
    <div class="board-item-content">
    <div class="movie-item-info">
    <p class="name"><a href="/films/1212" title="千与千寻" data-act="boarditem-click" data-val="{movieId:1212}">千与千寻</a></p>
    <p class="star">
    主演:柊瑠美,入野*,夏木真理
    </p>
    <p class="releasetime">上映时间:2001-07-20(日本)</p> </div>
    <div class="movie-item-number score-num">
    <p class="score"><i class="integer">9.</i><i class="fraction">3</i></p>
    </div> </div>
    </div> </dd>
    <dd>
    <i class="board-index board-index-10">10</i>
    <a href="/films/2760" title="魂断蓝桥" class="image-link" data-act="boarditem-click" data-val="{movieId:2760}">
    <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
    <img data-src="http://p0.meituan.net/movie/46c29a8b8d8424bdda7715e6fd779c66235684.jpg@160w_220h_1e_1c" alt="魂断蓝桥" class="board-img" />
    </a>
    <div class="board-item-main">
    <div class="board-item-content">
    <div class="movie-item-info">
    <p class="name"><a href="/films/2760" title="魂断蓝桥" data-act="boarditem-click" data-val="{movieId:2760}">魂断蓝桥</a></p>
    <p class="star">
    主演:费雯·丽,罗伯特·泰勒,露塞尔·沃特森
    </p>
    <p class="releasetime">上映时间:1940-05-17(美国)</p> </div>
    <div class="movie-item-number score-num">
    <p class="score"><i class="integer">9.</i><i class="fraction">2</i></p>
    </div> </div>
    </div> </dd>
    </dl> </div>
    <div class="pager-main"> <ul class="list-pager"> <li class="active">
    <a class="page_1"
    href="javascript:void(0);" style="cursor: default"
    >1</a> </li>
    <li >
    <a class="page_2"
    href="?offsest=0&amp;offset=10"
    >2</a> </li>
    <li >
    <a class="page_3"
    href="?offsest=0&amp;offset=20"
    >3</a> </li>
    <li >
    <a class="page_4"
    href="?offsest=0&amp;offset=30"
    >4</a> </li>
    <li >
    <a class="page_5"
    href="?offsest=0&amp;offset=40"
    >5</a> </li> <li class="sep">...</li>
    <li >
    <a class="page_10"
    href="?offsest=0&amp;offset=90"
    >10</a> </li> <li> <a class="page_2"
    href="?offsest=0&amp;offset=10"
    >下一页</a>
    </li>
    </ul> </div>
    </div>
    </div> </div> <div class="footer">
    <p class="friendly-links">
    商务合作邮箱:v@maoyan.com
    客服电话:10105335
    违法和不良信息举报电话:4006018900
    <br/>
    投诉举报邮箱:tousujubao@meituan.com
    舞弊线索举报邮箱:wubijubao@maoyan.com
    </p>
    <p class="friendly-links">
    友情链接 :
    <a href="http://www.meituan.com" data-query="utm_source=wwwmaoyan" target="_blank">美团网</a>
    <span></span>
    <a href="http://i.meituan.com/client" data-query="utm_source=wwwmaoyan" target="_blank">美团下载</a>
    </p>
    <p>
    &copy;2016
    猫眼电影 maoyan.com
    <a href="https://tsm.miit.gov.cn/pages/EnterpriseSearchList_Portal.aspx?type=0&keyword=京ICP证160733号&pageNo=1" target="_blank">京ICP证160733号</a>
    <a href="http://www.miibeian.gov.cn" target="_blank">京ICP备16022489号-1</a>
    <a href="http://www.beian.gov.cn/portal/registerSystemInfo?recordcode=11010102003232" target="_blank">京公网安备 11010102003232号</a>
    <a href="/about/licence" target="_blank">网络文化经营许可证</a>
    <a href="http://www.meituan.com/about/rules" target="_blank">电子公告服务规则</a>
    </p>
    <p>北京猫眼文化传媒有限公司</p>
    </div> <!--[if IE 8]><script src="//ms0.meituan.net/mywww/es5-shim.bbad933f.js"></script><![endif]-->
    <!--[if IE 8]><script src="//ms0.meituan.net/mywww/es5-sham.d6ea26f4.js"></script><![endif]-->
    <script src="//ms0.meituan.net/mywww/common.dc33ab40.js"></script>
    <script src="//ms0.meituan.net/mywww/board-index.4aa00764.js"></script>
    </body>
    </html>

    获得的结果

  2. 解析第一个内容

    import requests
    import re
    from requests.exceptions import RequestException def get_one_page(url):
    try:
    response = requests.get(url)
    if response.status_code == 200:
    return response.text
    return None
    except RequestException:
    return None def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?">(.*?)</i>.*?data-src="(.*?)".*?"name"><a.*?>(.*?)</a>.*?"star">'
    '(.*?)</p>.*?"releasetime">(.*?)</p>.*?"integer">(.*?)</i>.*?"fraction">(.*?)</i>.*?</dd>',re.S) items = re.findall(pattern, html)
    return items def main(): url = 'http://maoyan.com/board/4?offset=0'
    html = get_one_page(url)
    # print(html)
    for item in parse_one_page(html):
    print(item) if __name__ == '__main__':
    main()
    ('', 'http://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c', '霸王别姬', '\n                主演:张国荣,张丰毅,巩俐\n        ', '上映时间:1993-01-01(中国香港)', '9.', '')
    ('', 'http://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@160w_220h_1e_1c', '肖申克的救赎', '\n 主演:蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿\n ', '上映时间:1994-10-14(美国)', '9.', '')
    ('', 'http://p0.meituan.net/movie/54617769d96807e4d81804284ffe2a27239007.jpg@160w_220h_1e_1c', '罗马假日', '\n 主演:格利高里·派克,奥黛丽·赫本,埃迪·艾伯特\n ', '上映时间:1953-09-02(美国)', '9.', '')
    ('', 'http://p0.meituan.net/movie/e55ec5d18ccc83ba7db68caae54f165f95924.jpg@160w_220h_1e_1c', '这个杀手不太冷', '\n 主演:让·雷诺,加里·奥德曼,娜塔莉·波特曼\n ', '上映时间:1994-09-14(法国)', '9.', '')
    ('', 'http://p1.meituan.net/movie/f5a924f362f050881f2b8f82e852747c118515.jpg@160w_220h_1e_1c', '教父', '\n 主演:马龙·白兰度,阿尔·帕西诺,詹姆斯·肯恩\n ', '上映时间:1972-03-24(美国)', '9.', '')
    ('', 'http://p1.meituan.net/movie/0699ac97c82cf01638aa5023562d6134351277.jpg@160w_220h_1e_1c', '泰坦尼克号', '\n 主演:莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩\n ', '上映时间:1998-04-03', '9.', '')
    ('', 'http://p0.meituan.net/movie/b03e9c52c585635d2cb6a3f7c08a8a50112441.jpg@160w_220h_1e_1c', '龙猫', '\n 主演:日高法子,坂本千夏,糸井重里\n ', '上映时间:1988-04-16(日本)', '9.', '')
    ('', 'http://p0.meituan.net/movie/da64660f82b98cdc1b8a3804e69609e041108.jpg@160w_220h_1e_1c', '唐伯虎点秋香', '\n 主演:周星驰,巩俐,郑佩佩\n ', '上映时间:1993-07-01(中国香港)', '9.', '')
    ('', 'http://p0.meituan.net/movie/b076ce63e9860ecf1ee9839badee5228329384.jpg@160w_220h_1e_1c', '千与千寻', '\n 主演:柊瑠美,入野*,夏木真理\n ', '上映时间:2001-07-20(日本)', '9.', '')
    ('', 'http://p0.meituan.net/movie/46c29a8b8d8424bdda7715e6fd779c66235684.jpg@160w_220h_1e_1c', '魂断蓝桥', '\n 主演:费雯·丽,罗伯特·泰勒,露塞尔·沃特森\n ', '上映时间:1940-05-17(美国)', '9.', '')

    获得的结果

  3. 把第一页内容变成一个生成器,逐行获取并写入文件

    import requests
    import re
    from requests.exceptions import RequestException
    import json def get_one_page(url):
    try:
    response = requests.get(url)
    if response.status_code == 200:
    return response.text
    return None
    except RequestException:
    return None def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?">(.*?)</i>.*?data-src="(.*?)".*?"name"><a.*?>(.*?)</a>.*?"star">'
    '(.*?)</p>.*?"releasetime">(.*?)</p>.*?"integer">(.*?)</i>.*?"fraction">(.*?)</i>.*?</dd>',re.S) items = re.findall(pattern, html)
    for item in items:
    yield { #把获取的内容编程生成器
    'index':item[0],
    'image':item[1],
    'title':item[2],
    'actor': item[3].strip()[3:],
    'time': item[4].strip()[5:],
    'score': item[5]+item[6]
    } def write_to_file(content): #写入文件中
    with open('D:/Pycharm/xiangmu/xiangmu/result.txt','a',encoding='utf-8') as f:
    f.write(json.dumps(content,ensure_ascii=False)+'\n')
    f.close() def main(): url = 'http://maoyan.com/board/4?offset=0'
    html = get_one_page(url)
    for item in parse_one_page(html):
    print(item)
    write_to_file(item) if __name__ == '__main__':
    main()
  4. 通过循环获取这10页内容

    import requests
    import re
    import json
    from requests.exceptions import RequestException def get_one_page(url):
    try:
    response = requests.get(url)
    if response.status_code == 200:
    return response.text
    return None
    except RequestException:
    return None def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?">(.*?)</i>.*?data-src="(.*?)".*?"name"><a.*?>(.*?)</a>.*?"star">'
    '(.*?)</p>.*?"releasetime">(.*?)</p>.*?"integer">(.*?)</i>.*?"fraction">(.*?)</i>.*?</dd>',re.S) items = re.findall(pattern, html)
    for item in items:
    yield {
    'index':item[0],
    'image':item[1],
    'title':item[2],
    'actor': item[3].strip()[3:],
    'time': item[4].strip()[5:],
    'score': item[5]+item[6]
    } def write_to_file(content): #写入文件中
    with open('D:/Pycharm/xiangmu/xiangmu/result.txt','a',encoding='utf-8') as f:
    f.write(json.dumps(content,ensure_ascii=False)+'\n')
    f.close() def main(offset): url = 'http://maoyan.com/board/4?offset='+str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
    print(item)
    write_to_file(item) if __name__ == '__main__':
    for i in range(10):
    main(i*10)
    {'index': '', 'image': 'http://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c', 'title': '霸王别姬', 'actor': '张国荣,张丰毅,巩俐', 'time': '1993-01-01(中国香港)', 'score': '9.6'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@160w_220h_1e_1c', 'title': '肖申克的救赎', 'actor': '蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', 'time': '1994-10-14(美国)', 'score': '9.5'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/54617769d96807e4d81804284ffe2a27239007.jpg@160w_220h_1e_1c', 'title': '罗马假日', 'actor': '格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', 'time': '1953-09-02(美国)', 'score': '9.1'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/e55ec5d18ccc83ba7db68caae54f165f95924.jpg@160w_220h_1e_1c', 'title': '这个杀手不太冷', 'actor': '让·雷诺,加里·奥德曼,娜塔莉·波特曼', 'time': '1994-09-14(法国)', 'score': '9.5'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/f5a924f362f050881f2b8f82e852747c118515.jpg@160w_220h_1e_1c', 'title': '教父', 'actor': '马龙·白兰度,阿尔·帕西诺,詹姆斯·肯恩', 'time': '1972-03-24(美国)', 'score': '9.3'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/0699ac97c82cf01638aa5023562d6134351277.jpg@160w_220h_1e_1c', 'title': '泰坦尼克号', 'actor': '莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩', 'time': '1998-04-03', 'score': '9.5'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/b03e9c52c585635d2cb6a3f7c08a8a50112441.jpg@160w_220h_1e_1c', 'title': '龙猫', 'actor': '日高法子,坂本千夏,糸井重里', 'time': '1988-04-16(日本)', 'score': '9.2'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/da64660f82b98cdc1b8a3804e69609e041108.jpg@160w_220h_1e_1c', 'title': '唐伯虎点秋香', 'actor': '周星驰,巩俐,郑佩佩', 'time': '1993-07-01(中国香港)', 'score': '9.2'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/b076ce63e9860ecf1ee9839badee5228329384.jpg@160w_220h_1e_1c', 'title': '千与千寻', 'actor': '柊瑠美,入野*,夏木真理', 'time': '2001-07-20(日本)', 'score': '9.3'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/46c29a8b8d8424bdda7715e6fd779c66235684.jpg@160w_220h_1e_1c', 'title': '魂断蓝桥', 'actor': '费雯·丽,罗伯特·泰勒,露塞尔·沃特森', 'time': '1940-05-17(美国)', 'score': '9.2'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/230e71d398e0c54730d58dc4bb6e4cca51662.jpg@160w_220h_1e_1c', 'title': '乱世佳人', 'actor': '费雯·丽,克拉克·盖博,奥利维娅·德哈维兰', 'time': '1939-12-15(美国)', 'score': '9.1'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/18e3191039d5e71562477659301f04aa61905.jpg@160w_220h_1e_1c', 'title': '喜剧之王', 'actor': '周星驰,莫文蔚,张柏芝', 'time': '1999-02-13(中国香港)', 'score': '9.2'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/ba1ed511668402605ed369350ab779d6319397.jpg@160w_220h_1e_1c', 'title': '天空之城', 'actor': '寺田农,鹫尾真知子,龟山助清', 'time': '', 'score': '9.1'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/14a7b337e8063e3ce05a5993ed80176b74208.jpg@160w_220h_1e_1c', 'title': '大闹天宫', 'actor': '邱岳峰,毕克,富润生', 'time': '1965-12-31', 'score': '9.0'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/39ed7a0941a3604bba78d299b11a18ce119679.jpg@160w_220h_1e_1c', 'title': '辛德勒的名单', 'actor': '连姆·尼森,拉尔夫·费因斯,本·金斯利', 'time': '1993-12-15(美国)', 'score': '9.2'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/6bc004d57358ee6875faa5e9a1239140128550.jpg@160w_220h_1e_1c', 'title': '音乐之声', 'actor': '朱莉·安德鲁斯,克里斯托弗·普卢默,埃琳诺·帕克', 'time': '1965-03-02(美国)', 'score': '9.0'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/ae7245920d95c03765fe1615f3a1fe3865785.jpg@160w_220h_1e_1c', 'title': '春光乍泄', 'actor': '张国荣,梁朝伟,张震', 'time': '1997-05-30(中国香港)', 'score': '9.2'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/0e91ffcfa7e53449216cc29ee8af513a75791.jpg@160w_220h_1e_1c', 'title': '剪刀手爱德华', 'actor': '约翰尼·德普,薇诺娜·瑞德,黛安·韦斯特', 'time': '1990-12-06(美国)', 'score': '8.8'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/43d259ecbcd53e8bbe902632772281d6327525.jpg@160w_220h_1e_1c', 'title': '美丽人生', 'actor': '罗伯托·贝尼尼,尼可莱塔·布拉斯基,乔治·坎塔里尼', 'time': '1997-12-20(意大利)', 'score': '9.3'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/c15b7623cce2f51c75562a3baefe507b68290.jpg@160w_220h_1e_1c', 'title': '海上钢琴师', 'actor': '蒂姆·罗斯,普路特·泰勒·文斯,比尔·努恩', 'time': '1998-10-28(意大利)', 'score': '9.2'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/d981a12f59d3cc92ff666094404ad8f0211220.jpg@160w_220h_1e_1c', 'title': '黑客帝国', 'actor': '基努·里维斯,凯瑞-安·莫斯,劳伦斯·菲什伯恩', 'time': '2000-01-14', 'score': '9.0'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/932bdfbef5be3543e6b136246aeb99b8123736.jpg@160w_220h_1e_1c', 'title': '指环王3:王者无敌', 'actor': '伊莱贾·伍德,伊恩·麦克莱恩,丽芙·泰勒', 'time': '2004-03-15', 'score': '9.2'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/b449893ebc63d5c54eb4a5b60341f334383831.jpg@160w_220h_1e_1c', 'title': '加勒比海盗', 'actor': '约翰尼·德普,凯拉·奈特莉,奥兰多·布鲁姆', 'time': '2003-11-21', 'score': '8.9'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/aacb9ed2a6601bfe515ef0970add1715623792.jpg@160w_220h_1e_1c', 'title': '哈利·波特与魔法石', 'actor': '丹尼尔·雷德克里夫,鲁伯特·格林特,艾玛·沃森', 'time': '2002-01-26', 'score': '9.1'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/d12a1c198ad9ffac72b5db57feacb449294699.jpg@160w_220h_1e_1c', 'title': '蝙蝠侠:黑暗骑士', 'actor': '克里斯蒂安·贝尔,希斯·莱杰,艾伦·艾克哈特', 'time': '2008-07-18(美国)', 'score': '9.3'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/8959888ee0c399b0fe53a714bc8a5a17460048.jpg@160w_220h_1e_1c', 'title': '楚门的世界', 'actor': '金·凯瑞,劳拉·琳妮,诺亚·艾默里奇', 'time': '1998-06-01(美国)', 'score': '8.9'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/53b6f0b66882a53b08896c92076515a8236400.jpg@160w_220h_1e_1c', 'title': '射雕英雄传之东成西就', 'actor': '张国荣,梁朝伟,张学友', 'time': '1993-02-05(中国香港)', 'score': '8.9'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/0d93b5b585ce29c6688e43f3989fb41f86421.jpg@160w_220h_1e_1c', 'title': '无间道', 'actor': '刘德华,梁朝伟,黄秋生', 'time': '2003-09-05', 'score': '9.1'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/7bac8bfa6739c18620065132ce9c64fa85110.jpg@160w_220h_1e_1c', 'title': '教父2', 'actor': '阿尔·帕西诺,罗伯特·德尼罗,黛安·基顿', 'time': '1974-12-12(美国)', 'score': '9.0'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/5cfa597a98b35ee4ee598695942641ba287922.jpg@160w_220h_1e_1c', 'title': '指环王2:双塔奇兵', 'actor': '伊莱贾·伍德,伊恩·麦克莱恩,丽芙·泰勒', 'time': '2003-04-25', 'score': '9.1'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/4592eef6b6dffcd1d950f55f41ab098f239816.jpg@160w_220h_1e_1c', 'title': '机器人总动员', 'actor': '本·贝尔特,艾丽莎·奈特,杰夫·格尔林', 'time': '2008-06-27(美国)', 'score': '9.3'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/4c41068ef7608c1d4fbfbe6016e589f7204391.jpg@160w_220h_1e_1c', 'title': '活着', 'actor': '葛优,巩俐,牛犇', 'time': '1994-05-18(法国)', 'score': '9.0'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/779bcc212a50a2526343362778f6b63c334618.jpg@160w_220h_1e_1c', 'title': '拯救大兵瑞恩', 'actor': '汤姆·汉克斯,马特·达蒙,汤姆·塞兹摩尔', 'time': '1998-07-24(美国)', 'score': '8.9'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/618e57ddb3173de6bbf2e278946b11f279679.jpg@160w_220h_1e_1c', 'title': '天堂电影院', 'actor': '菲利普·努瓦雷,赛尔乔·卡斯特利托,蒂兹亚娜·罗达托', 'time': '1988-11-17(意大利)', 'score': '9.2'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/0127b451d5b8f0679c6f81c8ed414bb2432442.jpg@160w_220h_1e_1c', 'title': '哈尔的移动城堡', 'actor': '倍赏千惠子,木村拓哉,美轮明宏', 'time': '2004-11-20(日本)', 'score': '9.0'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/7787c10ad5e95b03cf83ef9473500d8e282796.jpg@160w_220h_1e_1c', 'title': '忠犬八公的故事', 'actor': 'Forest,理查·基尔,琼·艾伦', 'time': '2010-03-12(英国)', 'score': '9.3'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/7e471a9171a410ebc9413b2f1de67afc130067.jpg@160w_220h_1e_1c', 'title': '东邪西毒', 'actor': '张国荣,梁朝伟,刘嘉玲', 'time': '1994-09-17', 'score': '8.9'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/6ab1882a217e848acceb240365043d53329196.jpg@160w_220h_1e_1c', 'title': '幽灵公主', 'actor': '松田洋治,石田百合子,田中裕子', 'time': '1997-07-12(日本)', 'score': '8.9'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/2f344a9f9575edbcae9f0abe0578bc90339773.jpg@160w_220h_1e_1c', 'title': '盗梦空间', 'actor': '莱昂纳多·迪卡普里奥,渡边谦,约瑟夫·高登-莱维特', 'time': '2010-09-01', 'score': '9.2'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/c5e76795bf7a78b12a2ffabb4a0c5c11112921.jpg@160w_220h_1e_1c', 'title': '搏击俱乐部', 'actor': '爱德华·诺顿,布拉德·皮特,海伦娜·伯翰·卡特', 'time': '1999-10-15(美国)', 'score': '8.8'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/d5e5e53ef9bbd98223e83df261b51b84103223.jpg@160w_220h_1e_1c', 'title': '疯狂原始人', 'actor': '尼古拉斯·凯奇,艾玛·斯通,瑞恩·雷诺兹', 'time': '2013-04-20', 'score': '9.5'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/91f575ec93f019f428d1f33e3ceca7c5115495.jpg@160w_220h_1e_1c', 'title': '阿凡达', 'actor': '萨姆·沃辛顿,佐伊·索尔达娜,米歇尔·罗德里格兹', 'time': '2010-01-04', 'score': '9.0'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/4a4c84aa103ab47202f1aa907c5542a4128882.jpg@160w_220h_1e_1c', 'title': 'V字仇杀队', 'actor': '娜塔莉·波特曼,雨果·维文,斯蒂芬·瑞', 'time': '2006-03-17(美国)', 'score': '8.8'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/4f9638ba234c3fb673f23a09968db875371576.jpg@160w_220h_1e_1c', 'title': '风之谷', 'actor': '岛本须美,永井一郎,坂本千夏', 'time': '', 'score': '8.9'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/7cd18fcf0b4f9180500124711e81492994030.jpg@160w_220h_1e_1c', 'title': '放牛班的春天', 'actor': '热拉尔·朱尼奥,尚-巴堤·莫里耶,玛丽·布奈尔', 'time': '2004-10-16', 'score': '8.9'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/5896de3c1474277730e321c9b1db04a9205644.jpg@160w_220h_1e_1c', 'title': '当幸福来敲门', 'actor': '威尔·史密斯,贾登·史密斯,坦迪·牛顿', 'time': '2008-01-17', 'score': '8.9'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/df15efd261060d3094a73ef679888d4f238149.jpg@160w_220h_1e_1c', 'title': '十二怒汉', 'actor': '亨利·方达,李·科布,马丁·鲍尔萨姆', 'time': '1957-04-13(美国)', 'score': '9.1'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/1d0fa86bcf7a44484b9c16ac6af5be68191952.jpg@160w_220h_1e_1c', 'title': '速度与激情5', 'actor': '范·迪塞尔,保罗·沃克,道恩·强森', 'time': '2011-05-12', 'score': '9.2'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/8194ae885ed9419aadf35c196af86ba4239039.jpg@160w_220h_1e_1c', 'title': '驯龙高手', 'actor': '杰伊·巴鲁切尔,杰拉德·巴特勒,亚美莉卡·费雷拉', 'time': '2010-05-14', 'score': '9.0'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/f8e9d5a90224746d15dfdbd53d4fae3d209420.jpg@160w_220h_1e_1c', 'title': '勇敢的心', 'actor': '梅尔·吉布森,苏菲·玛索,帕特里克·麦高汉', 'time': '1995-05-24(美国)', 'score': '8.8'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/85c2bfba6025bfbfb53291ae5924c215308805.jpg@160w_220h_1e_1c', 'title': '神偷奶爸', 'actor': '史蒂夫·卡瑞尔,杰森·席格尔,拉塞尔·布兰德', 'time': '2010-07-09(美国)', 'score': '9.0'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/47dd790e19dad72b50580641de5608c5199014.jpg@160w_220h_1e_1c', 'title': '飞屋环游记', 'actor': '爱德华·阿斯纳,乔丹·长井,鲍勃·彼德森', 'time': '2009-08-04', 'score': '8.9'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/5ca6ffcbb994a51cd6215e7c4fff2d9b71039.jpg@160w_220h_1e_1c', 'title': '黑客帝国3:矩阵革命', 'actor': '基努·里维斯,雨果·维文,凯瑞-安·莫斯', 'time': '2003-11-05', 'score': '8.8'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/457a35fda360cb72090fa6dcbd1db3c1275333.jpg@160w_220h_1e_1c', 'title': '怦然心动', 'actor': '玛德琳·卡罗尔,卡兰·麦克奥利菲,艾丹·奎因', 'time': '2010-08-06(美国)', 'score': '8.9'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/4bb144bc0a674ba6908349018fd092e6330929.jpg@160w_220h_1e_1c', 'title': '三傻大闹宝莱坞', 'actor': '阿米尔·汗,黄渤,卡琳娜·卡普尔', 'time': '2011-12-08', 'score': '9.1'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/e71affe126eeb4f8bfcc738cbddeebc8288766.jpg@160w_220h_1e_1c', 'title': '断背山', 'actor': '希斯·莱杰,杰克·吉伦哈尔,米歇尔·威廉姆斯', 'time': '2006-01-13(美国)', 'score': '9.0'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/7cb7965469cb7ff95613714389f1ea3d87743.jpg@160w_220h_1e_1c', 'title': '闻香识女人', 'actor': '阿尔·帕西诺,克里斯·奥唐纳,加布里埃尔·安瓦尔', 'time': '1992-12-23(美国)', 'score': '8.8'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/0b507aa44c4dfbbcc91949b69b1b39a168922.jpg@160w_220h_1e_1c', 'title': '鬼子来了', 'actor': '姜文,姜宏波,陈强', 'time': '2000-05-12(法国戛纳)', 'score': '8.9'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/4dddd98730274c3b1464ff0a0ad195e5233381.jpg@160w_220h_1e_1c', 'title': '飞越疯人院', 'actor': '杰克·尼科尔森,路易丝·弗莱彻,威尔·萨姆森', 'time': '1975-11-19(美国)', 'score': '8.8'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/92198a6fc8c3f5d13aa1bdf203572c0f99438.jpg@160w_220h_1e_1c', 'title': '美国往事', 'actor': '罗伯特·德尼罗,詹姆斯·伍兹,伊丽莎白·麦戈文', 'time': '1984-02-17(美国)', 'score': '9.1'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/75c0d3eb584be030a01f2e26741a8f41251454.jpg@160w_220h_1e_1c', 'title': '致命魔术', 'actor': '休·杰克曼,克里斯蒂安·贝尔,迈克尔·凯恩', 'time': '2006-10-20(美国)', 'score': '8.8'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/34998e31c6d07475f1add6b8b16fd21d192579.jpg@160w_220h_1e_1c', 'title': '少年派的奇幻漂流', 'actor': '苏拉·沙玛,伊尔凡·可汗,塔布', 'time': '2012-11-22', 'score': '9.1'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/7b7d1f8aa36d7a15463ce6942708a1a7265296.jpg@160w_220h_1e_1c', 'title': '美丽心灵', 'actor': '罗素·克劳,詹妮弗·康纳利,艾德·哈里斯', 'time': '2001-12-21(美国)', 'score': '8.8'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/68fa7db99e958c47d7aa07d015845a6f335154.jpg@160w_220h_1e_1c', 'title': '哈利·波特与死亡圣器(下)', 'actor': '丹尼尔·雷德克里夫,鲁伯特·格林特,艾玛·沃森', 'time': '2011-08-04', 'score': '9.0'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/7ec873ba943f13e3c63789d899bd0e23256871.jpg@160w_220h_1e_1c', 'title': '夜访吸血鬼', 'actor': '汤姆·克鲁斯,布拉德·皮特,克斯汀·邓斯特', 'time': '1994-11-11(美国)', 'score': '8.8'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/92eb862c42c49f8e41e459c369c4512b226610.jpg@160w_220h_1e_1c', 'title': '大话西游之月光宝盒', 'actor': '周星驰,莫文蔚,吴孟达', 'time': '2014-10-24', 'score': '9.6'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/96bb58f3e9d213fb0438987d16d27561379209.jpg@160w_220h_1e_1c', 'title': '蝙蝠侠:黑暗骑士崛起', 'actor': '克里斯蒂安·贝尔,迈克尔·凯恩,加里·奥德曼', 'time': '2012-08-27', 'score': '8.9'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/484171372de45945e8bbbcc97db57e09136701.jpg@160w_220h_1e_1c', 'title': '钢琴家', 'actor': '艾德里安·布洛迪,艾米莉娅·福克斯,米哈乌·热布罗夫斯基', 'time': '2002-09-25(法国)', 'score': '8.8'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/fcc17667b8343131101eeb4c67d90bf9150883.jpg@160w_220h_1e_1c', 'title': '无敌破坏王', 'actor': '约翰·C·赖利,萨拉·西尔弗曼,简·林奇', 'time': '2012-11-06', 'score': '9.0'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/6d0510f326bf145dcf49a901fb949b77278838.jpg@160w_220h_1e_1c', 'title': '倩女幽魂', 'actor': '张国荣,王祖贤,午马', 'time': '2011-04-30', 'score': '9.1'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/2526f77c650bf7cf3d5ee2dccdeac332244951.jpg@160w_220h_1e_1c', 'title': '本杰明·巴顿奇事', 'actor': '布拉德·皮特,凯特·布兰切特,塔拉吉·P·汉森', 'time': '2008-12-25(美国)', 'score': '8.8'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/7ed07b8ea8c0e0d0c7b685d20e3ec64e232004.jpg@160w_220h_1e_1c', 'title': '初恋这件小事', 'actor': '马里奥·毛瑞尔,平采娜·乐维瑟派布恩,阿查拉那·阿瑞亚卫考', 'time': '2012-06-05', 'score': '8.8'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/9e9f12cfc1f54c973dda6c85bd3a139d334520.jpg@160w_220h_1e_1c', 'title': '新龙门客栈', 'actor': '张曼玉,梁家辉,甄子丹', 'time': '2012-02-24', 'score': '8.8'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/8ad5a0f521fb15637dfdf9cab38d414453783.jpg@160w_220h_1e_1c', 'title': '甜蜜蜜', 'actor': '黎明,张曼玉,曾志伟', 'time': '2015-02-13', 'score': '9.2'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/7874ba1378033b0b491df0cc56c43d25221208.jpg@160w_220h_1e_1c', 'title': '触不可及', 'actor': '弗朗索瓦·克鲁塞,奥玛·希,安娜·勒尼', 'time': '2011-11-02(法国)', 'score': '9.1'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/40/9791315.jpg@160w_220h_1e_1c', 'title': '熔炉', 'actor': '孔刘,郑有美,金智英', 'time': '2011-09-22(韩国)', 'score': '8.8'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/dc2246233a6f5ac1e34c7176b602c8ca174557.jpg@160w_220h_1e_1c', 'title': '大话西游之大圣娶亲', 'actor': '周星驰,朱茵,莫文蔚', 'time': '2014-10-24', 'score': '8.8'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/bc7b6ababa54e11577d45c05e84a33af54072.jpg@160w_220h_1e_1c', 'title': '小鞋子', 'actor': '默罕默德·阿米尔·纳吉,Kamal Mirkarimi,Behzad Rafi', 'time': '1999-01-22(美国)', 'score': '9.1'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/4cc4c55c29b77b090485ce9943bf6f87274708.jpg@160w_220h_1e_1c', 'title': '素媛', 'actor': '李来,薛耿求,严志媛', 'time': '2013-10-02(韩国)', 'score': '9.1'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/5420be40e3b755ffe04779b9b199e935256906.jpg@160w_220h_1e_1c', 'title': '萤火之森', 'actor': '内山昂辉,佐仓绫音,后藤弘树', 'time': '2011-09-17(日本)', 'score': '9.0'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/3985eaf3858bea0f2a3d966bf7ee2103178217.jpg@160w_220h_1e_1c', 'title': '窃听风暴', 'actor': '乌尔里希·穆埃,塞巴斯蒂安·科赫,马蒂娜·格德克', 'time': '2006-03-23(德国)', 'score': '9.0'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/a0e0426a4390f5ecb49d25770a184dc0150779.jpg@160w_220h_1e_1c', 'title': '穿条纹睡衣的男孩', 'actor': '阿萨·巴特菲尔德,维拉·法米加,大卫·休里斯', 'time': '2008-09-12(英国)', 'score': '9.0'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/4abc8c932cfacfc0089e2883765d02d1295222.jpg@160w_220h_1e_1c', 'title': '时空恋旅人', 'actor': '瑞秋·麦克亚当斯,多姆纳尔·格里森,比尔·奈伊', 'time': '2013-09-04(英国)', 'score': '8.9'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/ce262f261f69fc3d679020402336a4af270365.jpg@160w_220h_1e_1c', 'title': '借东西的小人阿莉埃蒂', 'actor': '志田未来,神木隆之介,大竹忍', 'time': '2010-07-17(日本)', 'score': '8.8'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/b5ff0216e689b3fcc065590c48cd5105255305.jpg@160w_220h_1e_1c', 'title': '恐怖直播', 'actor': '河正宇,李璟荣,李大为', 'time': '2013-07-31(韩国)', 'score': '8.8'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/6a6e74b2c289f9fa4433dd2dc04a7741331638.jpg@160w_220h_1e_1c', 'title': '7号房的礼物', 'actor': '柳承龙,郑镇荣,朴信惠', 'time': '2013-01-23(韩国)', 'score': '8.9'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/7373dbba07b50ce6f24336edb96b2ea4271536.jpg@160w_220h_1e_1c', 'title': '海豚湾', 'actor': '里克·奥巴瑞,路易·西霍尤斯,哈迪·琼斯', 'time': '2009-07-31(美国)', 'score': '8.9'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/c835b3588d0061ed3b992388a0a96f15160913.jpg@160w_220h_1e_1c', 'title': '忠犬八公物语', 'actor': '仲代达矢,春川真澄,井川比佐志', 'time': '1987-08-01(日本)', 'score': '9.0'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/b553d13f30100db731ab6cf45668e52d94703.jpg@160w_220h_1e_1c', 'title': '上帝之城', 'actor': '亚历桑德雷·罗德里格斯,艾莉丝·布拉加,莱安德鲁·菲尔米诺', 'time': '2002-08-30(巴西)', 'score': '8.9'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/8fabf3894b7d12d3d2f6e66404813670265761.jpg@160w_220h_1e_1c', 'title': '辩护人', 'actor': '宋康昊,郭度沅,吴达洙', 'time': '2013-12-18(韩国)', 'score': '8.8'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/73349facab53529ab9e079c6c8c7c059281729.jpg@160w_220h_1e_1c', 'title': '七武士', 'actor': '三船敏郎,志村乔,千秋实', 'time': '1954-04-26(日本)', 'score': '9.1'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/2c0a5fedf4b43d142121b91c6ccabe1b59051.jpg@160w_220h_1e_1c', 'title': '一一', 'actor': '吴念真,金燕玲,李凯莉', 'time': '2000-09-20(法国)', 'score': '8.9'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/30310858fdab34c7a17cfd7ec8ad8bfc112201.jpg@160w_220h_1e_1c', 'title': '完美的世界', 'actor': '凯文·科斯特纳,克林特·伊斯特伍德,T·J·劳瑟', 'time': '1993-11-24(美国)', 'score': '8.9'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/0018b57299d0d4540330a31244c880a9112971.jpg@160w_220h_1e_1c', 'title': '海洋', 'actor': '雅克·贝汉,姜文,兰斯洛特·贝汉', 'time': '2011-08-12', 'score': '9.0'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/36a893c53a13f9bb934071b86ae3b5c492427.jpg@160w_220h_1e_1c', 'title': '爱·回家', 'actor': '俞承豪,金艺芬,童孝熙', 'time': '2002-04-05(韩国)', 'score': '9.0'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/9bff56ed3ea38bb1825daa1d354bc92352781.jpg@160w_220h_1e_1c', 'title': '黄金三镖客', 'actor': '克林特·伊斯特伍德,李·范·克里夫,埃里·瓦拉赫', 'time': '1966-12-23(意大利)', 'score': '8.9'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/ed50b58bf636d207c56989872a91f4cf305138.jpg@160w_220h_1e_1c', 'title': '我爱你', 'actor': '宋在浩,李顺才,尹秀晶', 'time': '2011-02-17(韩国)', 'score': '9.0'}
    {'index': '', 'image': 'http://p1.meituan.net/movie/a1634f4e49c8517ae0a3e4adcac6b0dc43994.jpg@160w_220h_1e_1c', 'title': '迁徙的鸟', 'actor': '雅克·贝汉,Philippe Labro', 'time': '2001-12-12(法国)', 'score': '9.1'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/885fc379c614a2b4175587b95ac98eb95045650.jpg@160w_220h_1e_1c', 'title': '阿飞正传', 'actor': '张国荣,张曼玉,刘德华', 'time': '2018-06-25', 'score': '8.8'}
    {'index': '', 'image': 'http://p0.meituan.net/movie/3e5f5f3aa4b7e5576521e26c2c7c894d253975.jpg@160w_220h_1e_1c', 'title': '英雄本色', 'actor': '狄龙,张国荣,周润发', 'time': '2017-11-17', 'score': '9.2'}

    获得的内容

  5. 通过多线程获取内容:

    import requests
    import re
    from requests.exceptions import RequestException
    import json
    from multiprocessing import Pool def get_one_page(url):
    try:
    response = requests.get(url)
    if response.status_code == 200:
    return response.text
    return None
    except RequestException:
    return None
    def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?">(.*?)</i>.*?data-src="(.*?)".*?"name"><a.*?>(.*?)</a>.*?"star">'
    '(.*?)</p>.*?"releasetime">(.*?)</p>.*?"integer">(.*?)</i>.*?"fraction">(.*?)</i>.*?</dd>',
    re.S)
    items = re.findall(pattern, html)
    for item in items:
    yield {
    'index': item[0],
    'image': item[1],
    'title': item[2],
    'actor': item[3].strip()[3:],
    'time': item[4].strip()[5:],
    'score': item[5] + item[6]
    } def write_to_file(content): # 写入文件中
    with open('D:/Pycharm/xiangmu/xiangmu/result.txt', 'a', encoding='utf-8') as f:
    f.write(json.dumps(content, ensure_ascii=False) + '\n')
    f.close() def main(offset):
    url = 'http://maoyan.com/board/4?offset=' + str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
    print(item)
    write_to_file(item)
    if __name__ == '__main__':
    pool = Pool()
    pool.map(main, [i * 10 for i in range(10)])
    1. #json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False
    2.  # .dumps 将dict转换成str格式,
    3.  # .loads 将str转换成dict格式

PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100(实战项目一)的更多相关文章

  1. Requests&plus;正则表达式爬取猫眼电影&lpar;TOP100榜&rpar;

    猫眼电影网址:www.maoyan.com 前言:网上一些大神已经对猫眼电影进行过爬取,所用的方法也是各有其优,最终目的是把影片排名.图片.名称.主要演员.上映时间与评分提取出来并保存到文件或者数据库 ...

  2. python爬虫从入门到放弃(九)之 Requests&plus;正则表达式爬取猫眼电影TOP100

    import requests from requests.exceptions import RequestException import re import json from multipro ...

  3. Python爬虫实战之Requests&plus;正则表达式爬取猫眼电影Top100

    import requests from requests.exceptions import RequestException import re import json # from multip ...

  4. Python爬虫之requests&plus;正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息&lpar;四&rpar;

    requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构 可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.< ...

  5. 用requests库爬取猫眼电影Top100

    这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 import requests from re ...

  6. Requests&plus;正则表达式爬取猫眼电影

    目标 提取出猫眼电影TOP100的电影名称.时间.评分.图片等信息,提取站点的URL为http://maoyan.com/board/4,提取的结果以文本的形式保存下来. 准备工作 请安装好reque ...

  7. Requests&plus;正则表达式 爬取猫眼电影

    代码: import re import json from multiprocessing import Pool import requests from requests.exceptions ...

  8. 爬虫练习之正则表达式爬取猫眼电影Top100

    #猫眼电影Top100import requests,re,timedef get_one_page(url): headers={ 'User-Agent':'Mozilla/5.0 (Window ...

  9. Python爬虫学习&equals;&equals;&gt&semi;第十章:使用Requests&plus;正则表达式爬取猫眼电影

    学习目的: 通过一个一个简单的爬虫应用,初窥门径. 正式步骤 Step1:流程框架 抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: 正则表达式分析:根据html ...

随机推荐

  1. hibernate的缓存机制

    hibernate提供两种缓存:一级缓存和二级缓存 一.一级缓存:也就是Session缓存(又称作事务缓存):Hibernate内置的,不能卸除. 在同一个Session里面,第一次调用get()方法 ...

  2. 《Genesis-3D开源游戏引擎完整实例教程-2D射击游戏篇05:角色中弹》

    5.角色中弹 概述: 为了使游戏具有挑战性,大部分游戏设定中,游戏角色都有生命限制.即在游戏中,由于玩家的操控操控不当,导致游戏角色死亡游戏终止.打飞机游戏也不例外,当敌人击中角色的时候,角色宣判死亡 ...

  3. 《转》高级Unix命令

    原文链接:http://coolshell.cn/articles/1044.html 在Unix操作中有太多太多的命令,这些命令的强大之处就是一个命令只干一件事,并把这件事干好.Do one thi ...

  4. 瑞柏匡丞谈中国移动app的国际进阶路

    当今3.0互联时代,已然形成了一个移动化,互动化,全球化的完整体系.瑞柏匡丞也在常年与国内外客户的交流沟通中有了自己的些许见解. 国内的移动产业的发展已然非常迅速,但也正是因为各类企业的不断崛起,能够 ...

  5. Docker私有仓库Registry 搭建

    1. 关于Registry 官方的Docker hub是一个用于管理公共镜像的好地方,我们可以在上面找到我们想要的镜像,也可以把我们自己的镜像推送上去.但是,有时候,我们的使用场景需要我们拥有一个私有 ...

  6. Dijkstra算法(Swift版)

    原理 我们知道,使用Breadth-first search算法能够找到到达某个目标的最短路径,但这个算法没考虑weight,因此我们再为每个edge添加了权重后,我们就需要使用Dijkstra算法来 ...

  7. grep用法

    正则表达式只是一种表示法,只要工具支持这种表示法, 那么该工具就可以处理正则表达式的字符串.vim.grep.awk .sed 都支持正则表达式,也正是因为由于它们支持正则,才显得它们强大:在以前上班 ...

  8. 架构(二)Maven安装以及Nexus配置

    一 Maven安装配置 1.1 下载 http://mirrors.tuna.tsinghua.edu.cn/apache/maven/maven-3/3.5.4/binaries/apache-ma ...

  9. Dev-FAT-UAT-PRO

    DEV Development environment FAT Feature Acceptance Test environment UAT User Acceptance Test environ ...

  10. 开源免费的文档协作系统 onlyoffice平台轻松部署

    请移步至此,更详细:http://blog.csdn.net/hotqin888/article/details/79337881 ONLYOFFICE是一个免费的.开源的企业办公套件,用于在线组织团 ...