python爬虫

预：网页的组成

HTML（结构）+css（样式）+javascript（功能）

爬虫主要针对的是HTML和css

HTML：

<div></div>div标签代表网页中某个区域的框架

<p></p>写文字的内筒

<li>列表

<img>插入图

1.python中RE的使用

python若想使用re 需要先import re

re自带的两个重要函数：

1.re.findall('',string) 可以用（）将待查找的RE括起来，则只返回（）中的RE

2.python如何通过端口号访问网络

import socket

mysock=socket.socket(socket.AF_INET,socket.SOCK_STREAM)

mysock.connect(('www.',80))

mysock.send('GET http://www.*** HTTP/1.0\n\n')

while True:

　　data=mysock.recv(512)

　　if len(data)<1:

　　break;

　　print data

mysock.close()

python爬虫　　

4.coursera读取html

import urllib

fhand=urllib.urlopen('http://www.')

5.用beautiful soup分析HTML