JobHunter：使用Selenium抓取职业网站的网站下载

【文件属性】：

文件名称：JobHunter：使用Selenium抓取职业网站的网站

文件大小：23KB

文件格式：ZIP

更新时间：2024-03-08 15:38:32

JupyterNotebook

求职者这里的挑战是从几个石油公司的职业网站上刮取工作清单结果，然后将结果合并到一个可搜索的DataFrame中。从动态网页中收集数据似乎并非易事，并且代码难以维护。但这是一个很好的学习经验。 Web抓取的新手，我很快就意识到这些网站很难抓取，因为将搜索结果分页（分布在多个页面上），例如一次25个结果。该脚本必须导航到并遍历每组结果，并将每个结果追加到DataFrame。另外，由于内容是动态的并且易于更改，因此脚本不可靠，很容易损坏。当然，每个站点都是唯一的，每个职位列表的格式可能不一致。该脚本使用Selenium模块对两个站点Hallibuton和BP职业站点执行网络抓取，因为我发现这些站点更容易抓取。它仅检索作业的标题信息（角色，位置等），而不检索每个列表后面的详细内容。

立即下载

【文件预览】：
JobHunter-master
----results.csv(25B)
----README.md(1KB)
----.gitignore(2KB)
----Web scraping career sites with Selenium.ipynb(165KB)

秒客网

JobHunter：使用Selenium抓取职业网站的网站

网友评论

相关文章