【文件属性】:
文件名称:python批量获取html内body内容的实例
文件大小:40KB
文件格式:PDF
更新时间:2021-01-21 17:53:03
html od python
现在有一批完整的关于介绍城市美食、景点等的html页面,需要将里面body的内容提取出来
方法:利用python插件beautifulSoup获取htmlbody标签的内容,并批量处理。
# -*- coding:utf8 -*-
from bs4 import BeautifulSoup
import os
import os.path
import sys
reload(sys)
sys.setdefaultencoding('utf8')
def printPath(level,path):
global allFileNum
#所有文件夹,第一个字段是此目录的级别
dirLi