【文件属性】:
文件名称:Rvest网页爬虫
文件大小:4KB
文件格式:R
更新时间:2020-12-17 11:02:19
Rvest包 多页抓取 正则化表达式 保存数据
library(xml2)
library(rvest)
library(rvest)
library(stringr)
amazon.rank<-function(url='https://www.amazon.com/gp/bestsellers/wireless/ref=pd_zg_hrsr_wireless_1_1',start=1,end=1){
product<-data.frame()
for(i in start:end){
Sys.sleep(1)
##网页输入
url<-paste0(url,'#',"i")
web<-read_html(url,encoding="UTF-8") #读取数据,规定编码
##读入序号
num<-web %>% html_nodes("span.zg_rankNumber")%>%html_text()%>%as.numeric()
num
##读入产品名称
name<-web%>%html_nodes("div.zg_itemWrapper")%>%html_nodes("div.p13n-sc-truncated-hyphen")%>%html_text()%>%as.character()
to_remove <- paste(c("\n", "^\\s+|\\s+$"), collapse = "|")#去掉换行符、空格、, ",.*" 读取一种类型
position <- gsub(to_remove, "", name)
position<-as.factor(position)
position