【文件属性】:
文件名称:zhihu-selenium:使用Selenium抓取www.zhihu.com个人数据
文件大小:68KB
文件格式:ZIP
更新时间:2021-04-28 15:22:01
Java
zhihu-selenium
crawl personal data using selenium
接下来要做的功能
将用户自己创建的收藏夹中文章或答案爬取下来
设计爬取队列,将自己创建的所有收藏夹中文章和答案爬取下来
维护答案、文章及收藏夹之间关联关系
关注的收藏夹和自己创建的收藏夹页面布局相似度99%,可以重构代码
爬取关注的问题下面的答案
开发设计及约定
数据结构约定
知乎相关的原始数据存储的表以zhihu为前缀
为了爬取知乎内容而设计的队列等调度相关的表,队列以que_为前缀
如果要进行数据的跨库抽取,相应的表以etl_为前缀
java包
跟知乎相关的,放在com.yan.zhihu包下
如果数据的存储方式为mysql,则相应的代码放在com.yan.zhihu.mysql包下
(同理,如果是存储方式为mongodb,则应该放在com.yan.zhihu.mongo包下)
数据结
【文件预览】:
zhihu-selenium-master
----pom.xml(2KB)
----LICENSE(1KB)
----src()
--------main()
----doc()
--------zhihu-tables-mysql.sql(1KB)
----README.md(980B)