用shell脚本爬取网页信息

有个小需求，就是爬取一个小网站一些网页里的某些信息，url是带序号的类似的，不需要写真正的spider，网页内容也是差不多的

需要取出网页中<h1></h1>中间的字符串，而且只要第一行，最后带序号写到文件里

我并不是经常写shell的，只想快速达到目的

#!/bin/bash

for ((i=;i<=;i=i+))

do

echo "#############=P$i"

echo "http://.....com/.../level-$i"

wget -O rid-$i.txt http://.....com/.../level-$i

done

本来想写到一个脚本里，但是发现wget不是组赛式的，没法在wget命令后紧接着处理返回的文件内容，就分两个脚本处理吧

#!/bin/bash

rm -f ridds.txt

for ((i=;i<=;i=i+))

do

echo "$i"

echo "$i">>ridds.txt

grep -E "<h1>(.*)</h1>" rid-$i.txt|head -|sed 's/<h1>//g'|sed 's/<\/h1>//g'|sed "s/’/'/g"|sed "s/‘/'/g"|sed "s

/&#;/'/g"|sed 's/&#;/"/g'>>ridds.txt

done

取出<h1></h1>中间的内容，然后将里面用&#8217表示的单双引号什么的替换掉，替换时注意替单引号是外面要用双引号，反之也是

其实本来的需求是取YYY这一行的下一行<h1></h1>，只不过一开始没找到如何做，就改成取第一行<h1></h1>的内容了，好在那些网页都满足这个条件

不过后来同学告诉我用egrep可以匹配隔行的，egrep -A1 YYY test|egrep <h1>.*<h1>

秒客网

用shell脚本爬取网页信息

相关文章