ubuntu下的python网页解析库的安装——lxml, Beautiful Soup, pyquery, tesserocr

时间:2023-03-09 17:55:19
ubuntu下的python网页解析库的安装——lxml, Beautiful Soup, pyquery, tesserocr

lxml 的安装(xpath)

pip3 install lxml

可能会缺少以下依赖:

sudo apt-get install -y python3-dev build-e ssential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev

基本用法:

from lxml import etree

import requests

html = requests.get(finalURL).content.decode('utf-8')

dom_tree = etree.HTML(html)

links = dom_tree.xpath("//div/span[@class='info-col']/a")

Beautiful Soup的安装

pip3 install beautifulsoup4

pyquery的安装

p1p3 install pyquery

tesserocr的安装

sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev

接下来再安装tesserocr和pillow 即可,这里直接使用pip 安装:
pip3 install tesserocr pillow

如果想要安装多国语言,还需要安装语言包,官方叫作tessdata

(其下载链接为:https://github.com/tesseract-ocr/tessdata )。

利用G it 命令将其下载下来并迁移到相关目录即可,不同版本的迁移命令如下所示。
在Ubuntu 、Debian 和Deepin 系统下的迁移命令如下:
git clone https://github.com/tesseract-ocr/tessdata.git
sudo mv tessdata/* /usr/share/tesseract-ocr/tessdata