node调用phantomjs-node爬取复杂页面

什么是phantomjs

phantomjs官网是这么说的，‘整站测试，屏幕捕获，自动翻页，网络监控’，目前比较流行用来爬取复杂的，难以通过api或正则匹配的页面，比如页面是通过异步加载。phantomjs就是一个完整的浏览器只能没有界面，因此我们可以用它来模拟真正的浏览器去访问页面，然后再获取页面。我要说的重点是如何在node中调用phantomjs来获取页面。

node与phantomjs通信

命令行传参只能在phantomjs开启时对其传参，运行过程中无能为力。
标准输出能从phantomjs向node输出数据，但是没法反过来。
http phantomjs向node发http请求，然后node返回数据，但是请求只能由phantomjs发出
websocket websocket通讯，能够双向通讯但是实现略麻烦。
phantomjs-node 实际上也是使用websocket或者http通讯，但是毕竟是别人写好的我们直接用就行，缺点是依赖略庞大。

如何使用phantom-node

GitHub地址：https://github.com/amir20/phantomjs-node

这里只做简单说明详细api见github。

1.安装

npm install phantom

2.模块封装(以下代码基于es7，需支持async/await,node版本>7.0)，更详细使用可查看phantomjs官方文档

 'use strict'

 const phantom = require('phantom');

 let getPic = async ( name ) => {

     //url路径

     let url        = 'http:///'+name;

     //创建一个实例

     const instance = await phantom.create();

     //创建一个页面

     const page     = await instance.createPage();

     //设置页面参数

     await page.property( 'viewportSize' , { width : 1800 , height : 1200 } );

     //打开url，返回状态（url有转码，解决中文问题）

     const status = await page.open( encodeURI( url ) );

     console.log( status );

     //延时等待页面js执行完成（phantomjs只是等待页面上全部资源加载完毕，不包含页面js执行时间，所以需延时一段时间等待js）

     await lateTime( 500 );

     //输出页面到当前目录下

     await page.render(`${ name }--${Date.now()}.png`);

     //销毁实例

     await instance.exit();

     //返回数据

     return 'xxx';

 };

 let lateTime = ( time ) =>{

     return new Promise( function(resolve,reject){

         setTimeout(function(){

             resolve();

         }, time );

     } );

 }

 //暴露接口

 module.exports = getPic ;

秒客网

node调用phantomjs-node爬取复杂页面

什么是phantomjs

node与phantomjs通信

如何使用phantom-node

相关文章