selenium驱动Chrome抓取网页数据

老汉学编程

浏览: 30808 次
性别:
来自: 上海

最近访客更多访客>>

aop

CnXiaowei

djxhero

SplendidDream

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

selenium使用笔记
java网络爬虫技术记录

目的：使用selenium抓取数据。
抓取网页数据可以有多种技术方法(这里只列几种)：
1.java httpclient+jsoup（对js基本无支持），类似于wget和jsoup。
2.分析对方网站暴露出的接口
3.htmlunit
4.selenium
5.webkit（没有测试过，不过听说chrome内核也是基于webkit的，具体细节不明）

对于以上各种方法的适用场景：
方法1：适合那种禁用js和css就能得到所有你需要的数据的网站（不支持js动态渲染）。
方法2：有时虽然能够找出对方网站暴露的接口。
方法3：可用，但是对js和CSS支持很差（同样的配置，有些网站OK，有些网站死结）。
方法4：可用，但效率比较低（值得理解，本身是为测试开发的框架）。

实际应用中根据自己项目的需要进行取舍，没有一个通用的解决方案。

本人一直讨厌分析网站的接口，一直在selenium上下工夫，希望大幅提高其性能，希望开发一个比较通用的爬虫框架。
使用FirefoxDriver,尝试过各种about:config中的配置（包括内存的和缓存的优化），始终不能达到一个理想的效果，慢。
按照selenium官方的说法：在速度方面，HtmlunitDriver > ChromeDriver > FirefoxDriver
但是Htmlunit对js支持较差，就没尝试。
开始尝试ChromeDriver.
环境：centos6.6 + chrome 最新稳定版。
很多人说centos6无法安装chrome。
但是这里可以解决：http://jingyan.baidu.com/article/4b52d702790ddcfc5c774b17.html

System.setProperty("webdriver.chrome.driver","/home/oscar/chrome/chromedriver");
启动chromedriver的时候会报：“/usr/lib/libstdc++.so.6: version `GLIBCXX_3.4.14' not found”
这里能够解决：http://www.aliyun.com/zixun/content/2_6_518744.html

再起ChromeDriver程序，比较快速稳定（跑了一夜测试程序，没有什么大的问题，目测比FirefoxDriver快1.5-2倍,这个速度很满意了）。

接下来优化其配置信息，看能不能再次提升性能：//To be done！！

分享到：

selenium ChromeDriver禁用图片 | centos双网卡转发上网

2015-03-25 11:41
浏览 1641
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论