读书笔记--用Python写网络爬虫02--数据抓取

时间:2023-01-07 12:08:30

01 - 10

01 - Ticket驱动开发

提倡无论是提交应用程序还是基础设施的代码,所有的任务都需要先创建一个ticket,然后在开展工作的同时,同步更新ticket的状态和信息。

Ticket的关闭,也就是表明了对应工作内容的完成。

02 - PCDA循环与DevOps

PDCA循环是一种管理方法,主要用于在企业和商业活动中进行持续生产改善,并采取相应的控制措施。

这一方法将业务分为Plan(计划)、Do(执行)、Check(检查)和Act(处理)四个阶段来进行,在执行改善措施之后,又回到Plan(计划)阶段,如此循环往复。

  • P (Plan) 计划:包括方针和目标的确定,以及活动规划的制定。
  • D (Do) 执行:根据已知的信息,设计具体的方法、方案和计划布局;再根据设计和布局,进行具体运作,实现计划中的内容。
  • C (Check) 检查:总结执行计划的结果,分清哪些对了,哪些错了,明确效果,找出问题。
  • A (Act)处理:对总结检查的结果进行处理,对成功的经验加以肯定,并予以标准化;对于失败的教训也要总结,引起重视。对于没有解决的问题,应提交给下一个PDCA循环中去解决。

    以上四个过程不是运行一次就结束,而是周而复始的进行,一个循环完了,解决一些问题,未解决的问题进入下一个循环,阶梯式上升。

    全面质量管理活动的全部过程,就是质量计划的制订和组织实现的过程,这个过程就是按照PDCA循环,不停顿地周而复始地运转的。

关于PDCA的现代观点

  • P(Planning)——包括三小部分:目标(goal)、实施计划(plan)、收支预算(budget)。
  • D(design)——设计方案和布局。
  • C(4C)——4C管理:Check(检查)、Communicate(沟通)、Clean (清理)、Control(控制)。
  • A(2A)——Act(执行,对总结检查的结果进行处理)、Aim(按照目标要求行事,如改善、提高)。

与DevOps的关系

实施DevOps需要以PDCA的方式循环进行,在DevOps中,敏捷开发方法是实现PDCA循环的方法之一。

也就是说,DevOps是融合在业务中的持续性的改善和实践,而不是为了一次性完成所有的改善。

03 - 组织形式与DevOps

康威定律:设计系统的组织,其产生的设计等同于组织的沟通结构。

通过引入DevOps的工具和文化,能够使系统架构和组织结构同时发生变化。

04 - 在DevOps中应用Docker

构建功能单一的轻量级容器镜像

  • 容器以功能为单位进行分割,内容精简,缩小镜像
  • 容器之间尽量松耦合,消除容器内部对环境的依赖因素,提高通用性
  • 容器镜像本身不应保存与具体环境相关的信息

05 - From Traditional to Future

读书笔记--用Python写网络爬虫02--数据抓取

06 - DevOps技能图谱

不同成长阶段对技能的需求是不同的,无法准确用一张图来表示合适的内容。

大而全的技能图谱,不是为具体实施场景所准备的,而且里面甚至包括了过时的信息,不适合作为了解的途径。

这种技能图谱中的很多知识点、工具和技能其实不是现在就必须掌握的,重点是要掌握实际实施所必须的最少必要知识,先开展工作,然后在后期工作中按照需求、循序渐进地接触和使用。。

什么都想接触都想了解,效果必然很差,浪费时间和精力。

07 - 分支策略

制定分支的创建规则和使用规则,避免随意创建新分支导致的分支混乱、难以区分和回溯等问题。

  • 在什么时候需要使用分支?
  • 在什么时候合并到哪个分支?
  • 在不同的环境中分别使用哪个分支?
  • 在修改bug或者添加新功能时使用哪个分支?
  • ......

08 - DevOps几个关键点

  • 系统思考(将开发、测试、运维等环节之间的流程视为一条管道,从整体分析、定位和解决问题)
  • 增强反馈回路
  • 培养不断试验和学习的文化
  • 积极传播信息促进团队和个人成长

09 - 信息共享与管理

只有积极地传播和共享信息,才能推进DevOps的实施,提高团队的战斗力

  • 传统的方式:以文件形式存储在一台共享服务器上,存在难于搜索内容、无法获知更改信息和文件实时状态等问题
  • Web方式:Wiki、Confluence、看板等,易于创建和修改,能够快速准确找出所需信息
  • 代码库方式:信息文件存储在代码库,能够准确获知信息内容的状态和变化,以及历史信息

10 - 管理工作技术化

  • 需求失真,不透明,太抽象,需求管理混乱:明确唯一入口、团队共商共建、可视化、数据化等
  • 代码质量差:代码扫描自动化、在CI环节限制、评审策略化等
  • 测试反复,人力资源缺失:测试自动化、采用高效工具RobotFramework,Postman等
  • 版本零散、分支混乱、发布环境不一致:明晰的管理策略(代码、分支、环境)
  • 流程臃肿、数据繁杂,难以查看:可视化流程和数据
  • ......

11 - 20

11 - DevOps和Agile

如果说Agile是内功和心法的话,那么DevOps则是力量与招式。

Agile描述了一套价值观,却没有显式的把方法论体系化,而DevOps定义了一套方法论,把价值观蕴含在其实践中。

12 - DevOps标准与认证

《研发运营一体化(DevOps)能力成熟度模型》

  • 由工信部直属单位中国信息通信研究院牵头
  • 云计算开源产业联盟、高效运维社区和 DevOps 时代社区联合发起
  • 携手国内互联网、电信、金融等行业领先企业百余位专家共同编制
  • 全球首个 DevOps 标准,已在联合国直属标准化组织 ITU-T、中国工信部、中国通信标准化协会(CCSA)正式立项。

13 - 九问DevOps

“问题”一定是着某种具体的“目的与需求”来提问的,关于答案,没有正不正确,只有“合不合适”。

  1. 你对DevOps的理解是什么?
  2. 你认为DevOps的发展趋势是怎样的?
  3. 如果让你来组织或者引导一个DevOps项目的实施,你如何开展工作?
  4. 你将如何去说服或引领关键人(例如决策者、管理者、最终使用者、反对者等)赞同并支持建立DevOps机制?
  5. DevOps项目的实施后,落地了工具和方法,如何去评价DevOps的成效?
  6. 你获取和更新DevOps信息的途径和方式有哪些?最常用的是什么?
  7. 一套DevOps系统建立后,你认为如何保证这套系统的健康稳定的运转?
  8. 你在实施或运维DevOps过程中,遇到最大的困难是哪方面的?如何解决的?具体的方法是怎么?
  9. 你在推动和建立DevOps的过程中,投入最多精力和时间的是哪方面?为什么?

14 - CI Pipeline

读书笔记--用Python写网络爬虫02--数据抓取

读书笔记--用Python写网络爬虫02--数据抓取的更多相关文章

  1. 读书笔记--用Python写网络爬虫01--网络爬虫简介

    Wiki - Web crawler 百度百科 - 网络爬虫 1.1 网络爬虫何时使用 用于快速自动地获取网络信息,避免重复性的手工操作. 1.2 网络爬虫是否合法 网络爬虫目前人处于早期的蛮荒阶段, ...

  2. python写的爬虫工具,抓取行政村的信息并写入到hbase里

    python的版本是2.7.10,使用了两个第三方模块bs4和happybase,可以通过pip直接安装. 1.logger利用python自带的logging模块配置了一个简单的日志输出 2.get ...

  3. 读书笔记汇总 --- 用Python写网络爬虫

    本系列记录并分享:学习利用Python写网络爬虫的过程. 书目信息 Link 书名: 用Python写网络爬虫 作者: [澳]理查德 劳森(Richard Lawson) 原版名称: web scra ...

  4. 用Python写网络爬虫 第二版

    书籍介绍 书名:用 Python 写网络爬虫(第2版) 内容简介:本书包括网络爬虫的定义以及如何爬取网站,如何使用几种库从网页中抽取数据,如何通过缓存结果避免重复下载的问题,如何通过并行下载来加速数据 ...

  5. python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容

    python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖 ...

  6. PHP网络爬虫实践:抓取百度搜索结果,并分析数据结构

    百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水.代码如下: <?php /** * Created by Benjiemin * Date: 2020/3/5 * Time: 14:5 ...

  7. 笔记之《用python写网络爬虫》

    1 .3 背景调研 robots. txt Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站 ...

  8. Python写网络爬虫爬取腾讯新闻内容

    最近学了一段时间的Python,想写个爬虫,去网上找了找,然后参考了一下自己写了一个爬取给定页面的爬虫. Python的第三方库特别强大,提供了两个比较强大的库,一个requests, 另外一个Bea ...

  9. python写网络爬虫的环境搭建

    网上找了好多资料,都不全,通过资料的整理,包括自己的测试,终于把环境打好了,真是对于一个刚接触爬虫的人来说实属不易,现在分享给大家,若有不够详细之处,希望各位网友能补充. 第一步,下载python, ...

随机推荐

  1. 【JAVA 小结】Java关于类与对象的代码

    分别建立2个类class works 和 Person import java.io.*; public class works { public static void main(String[] ...

  2. Poj1852

    题目求的是:所有蚂蚁用最短时间从木棍上走下来的最大值(也就是最后一个蚂蚁什么时候走下来的) 所有蚂蚁中,用时最长的情况 PS:根本不用考虑两只蚂蚁相遇又折返的情况(可以直接认为是他两互不影响的走) # ...

  3. fzu 2135 数字游戏 【水题】

    Problem 2135 数字游戏 Accept: 253    Submit: 392Time Limit: 1000 mSec    Memory Limit : 32768 KB Problem ...

  4. 余弦距离、欧氏距离和杰卡德相似性度量的对比分析 by ChaoSimple

      1.余弦距离 余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量. 向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向 ...

  5. C&num; 上传文件至远程服务器

    C# 上传文件至远程服务器(适用于桌面程序及web程序) 2009-12-30 19:21:28|  分类: C#|举报|字号 订阅     最近几天在玩桌面程序,在这里跟大家共享下如何将本地文件上传 ...

  6. jQuery动画使用总结

    jQuery动画我用的比较多的仅仅只有show和hide,但是作为一个被我们大多数人所熟知的框架,相信他的动画功能还是比较多样的,这里做个小总结. 1.jQuery animate(),用于创建自定义 ...

  7. 自动化测试基础篇--Selenium多窗口、句柄问题

    摘自https://www.cnblogs.com/sanzangTst/p/7680402.html 有时我们在打开浏览器浏览网页时,当点击网页上某些链接时,它不是直接在当前页面上跳转,而是重新打开 ...

  8. 【进阶3-3期】深度广度解析 call 和 apply 原理、使用场景及实现(转)

    这是我在公众号(高级前端进阶)看到的文章,现在做笔记  https://github.com/yygmind/blog/issues/22 call() 和 apply() call() 方法调用一个 ...

  9. JavaScript Dom 查找

    JavaScript Dom 查找 一.直接查找 获取单个元素 document.getElementById('i1') 获取多个元素(列表数组) document.getElementsByTag ...

  10. Linux ssh服务器配置

    配置文件在/etc/sshd_config,注意只有root可rw,其他所有用户权限为---. 配置说明可参考man sshd_config. 如果更改了服务器端口号,并且启用了SELinux,需要执 ...