PhantomJs介绍

PhantomJS是一个基于Webkit的"无界面"(headless)浏览器,它会把网站加载到内存并执行页面上的JavaScript,因为不会展示图形界面,所以运行起来比完整的浏览器更高效。
如果我们把Selenium和PhantomJS结合在一起,就可以运行一个非常强大的网络爬虫了,这个爬虫可以处理JavaScript、Cookie、headers,以及任何我们真实用户需要做的事情。
长话短说,就是一些调用了大量js中如ajax请求,而接口又难以抓取或解密,就需要用到动态抓取加载完成后的网页,而不仅仅是使用get获取网页源码了。

注意:PhantomJS只能从它的网站(http://phantomjs.org/download.html)下载。因为PhantomJS是一个功能完善(虽然无界面)的浏览器而非一个Python库,所以它不需要像Python的其它库一样安装,但我们可以通过Selenium调用PhantomJS来直接使用 PhantomsJS官方才考文档:http://phantomjs.org/documention

安装方式

对于不太了解这玩意的小伙伴来说,首先想到的就是使用pip进行安装尝试,前面已经说了,他并不能像Python其他的库一样安装,所以肯定是会报错的。正确的安装方式是:

sudo apt-get install phantomjs

安装检验

检查是否正常工作,输入以下命令:

返回结果

>>>2.1.1

若显示当前版本号,则 Phantomjs 安装成功。

相关

前面说过,如果我们把Selenium和PhantomJS结合在一起,就可以运行一个非常强大的网络爬虫,PhantomJs的安装方法见:《Linux下怎样为Python安装PhantomJs》