selenium驱动firefox抓取网页数据，在firefox内存优化和速度优化方面的努力 - 老汉学编程 - ITeye博客

`

老汉学编程

浏览: 30818 次
性别:
来自: 上海

最近访客更多访客>>

aop

CnXiaowei

djxhero

SplendidDream

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

老汉学编程： Shen.Yiyang 写道集群里面你还放class版本不一样 ...
Tomcat集群遇到反序列化出错的问题
Shen.Yiyang：集群里面你还放class版本不一样的东西。。集群的意思不就是相 ...
Tomcat集群遇到反序列化出错的问题

selenium驱动firefox抓取网页数据，在firefox内存优化和速度优化方面的努力

博客分类：

selenium使用笔记

firefox 浏览器爬虫

阅读更多

使用默认frofile，启动firefox 内存600M，几个小时之后彪到一个G。

禁用掉图片，缓存启动内存200M左右，但是几个小时之后内存彪到600M左右.

目前查到的优化项，正在努力中&尝试中......，

各种尝试如果都不行，目前想到的终极解决方案：爬取一定量的页面之后关闭当前线程对应的firefox窗口，开启新窗口！

profile.setPreference("permissions.default.image", 2);
//禁用浏览器缓存
profile.setPreference("network.http.use-cache", false);
profile.setPreference("browser.cache.memory.enable", false);
profile.setPreference("browser.cache.disk.enable", false);
profile.setPreference("browser.sessionhistory.max_total_viewers", 3);
profile.setPreference("network.dns.disableIPv6", true);
profile.setPreference("Content.notify.interval", 750000);
profile.setPreference("content.notify.backoffcount", 3);

//有的网站支持有的不支持
profile.setPreference("network.http.pipelining", true);
profile.setPreference("network.http.proxy.pipelining", true);
profile.setPreference("network.http.pipelining.maxrequests", 32);

分享到：

centos双网卡转发上网 | selenium爬取网页的性能问题

2015-03-04 20:00
浏览 3146
评论(0)
分类:行业应用
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于python selenium实现B站直播弹幕和礼物信息爬虫源码+项目操作说明.zip: （2）下载浏览器驱动（驱动与浏览器版本一定要对应）(浏览器推荐使用Firefox和Chrome）：参考 [爬虫利器selenium和浏览器驱动安装教程](https://blog.csdn.net/qq_44032277/article/details/105793873) （3）修改...

python模拟爬虫抓取网页内容采集网页.rar: python爬虫模拟抓取网页内容，采集网页的内容，这里主要是模拟抓取新浪微博中的内容，里面包括了[源码] 爬取客户端微博信息、[源码] 爬取移动端个人信息关注id和粉丝id (速度慢)、[源码] 爬取移动端微博信息 (强推)...

Python selenium抓取微博内容的示例代码: 支持的浏览器包括IE、Mozilla Firefox、Mozilla Suite等。安装直接使用pip命令安装即可！ pip install selenium Python抓取微博有两种方式，一是通过selenium自动登录后从页面直接爬取，二是通过api。这里...

基于selenium模拟天眼查登录并爬取企业注册等信息的爬虫: 此资源仅供学习用途，当前selenium都是基于无头模式的firefox或者chrome等浏览器进行爬虫抓取，天眼查的反爬技术算是很不错的，仅仅用于个人学习用，并不可以进行大数据的爬取技术： python selenium 爬虫模拟登陆...

基于selenium模拟天眼查登录并爬取企业工商信息的python爬虫: 此资源仅供学习用途，当前selenium都是基于无头模式的firefox或者chrome等浏览器进行爬虫抓取，天眼查的反爬技术算是很不错的，仅仅用于个人学习用，并不可以进行大数据的爬取技术： python selenium 爬虫模拟登陆...

Python3 使用selenium插件爬取苏宁商家联系电话: Selenium是一个用于测试网站的自动化测试工具，支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器，同时也支持phantomJS无界面浏览器。此处使用了selenium插件使用的是火狐浏览器信息存储到csv表格里面...

基于selenium模拟天眼查登录并爬取企业工商信息的爬虫: 此资源仅供学习用途，当前selenium都是基于无头模式的firefox或者chrome等浏览器进行爬虫抓取，天眼查的反爬技术算是很不错的，仅仅用于个人学习用，并不可以进行大数据的爬取技术： python selenium 爬虫模拟登陆...

selenium模拟登录新浪微博.: 内含火狐驱动，和phantomjs无壳浏览器，针对现新浪微博的登录界面有用

用selenium和BeautifulSoup爬取网易云音乐歌手id: 它支持各种浏览器，包括 Chrome，Safari，Firefox 等主流界面式浏览器，如果你在这些浏览器里面安装一个 Selenium 的插件，那么便可以方便地实现Web界面的测试。换句话说叫 Selenium 支持这些浏览器驱动。 Beautiful...

C#浏览器自动填表demo(三种方式): 项目中用到C#网页自动填表抓取动态数据，收集了几种除了调用自带的webbrowser浏览器外，目前主流的几种方式： 1.使用chrome webkit webbrowser组件打开网页自动填表 2.使用Firefox geckofx webbrowser组件打开网页...

umimeto.org:用于自动执行umimeto.org上的任务的脚本: 为您的浏览器安装Selenium驱动程序（例如，用于firefox的geckodriver）如果要使用其他浏览器，请将“ Firefox”更改为webdriver类中的其他浏览器将“ path_to_browser_driver”设置为您的Selenium驱动程序路径 ...

RSeleniumUtilities:RSelenium 包的二进制文件和网络驱动程序（例如，selenium-server-standalone.jar）: 包旨在提供对 Selenium 的访问并将其用于 Web 导航，并简化在 R 中进行 Web 抓取和/或 Web 端测试的路径。 RSeleniumUtilities是一个配套包，其中包含 Selenium 服务器文件以及各种驱动程序文件和辅助函数。可用的...

uottawa-timetable-scraper：一个Python脚本，可从uOttawa网站上提取时间表信息。学习Web抓捕Selenium和xlwt的项目: 您还需要安装Selenium WebDriver，可在此处下载：该脚本还使用FireFox浏览器，可在此处下载：该脚本还使用geckoDriver，它允许Selenium在FireFox浏览器中执行其操作。可以在这里下载：。您必须将geckodriver放入...

Python3爬虫技术文档（三）——动态页面数据获取: 上文说到，我们可以通过分析Ajax访问服务器的方式来获取...支持的浏览器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome，Opera等。这个工具的主要功能包括：测试与浏览器的兼容性——测试你的应用

selenium_facebook_scraper：一个简单的python3脚本，用于从facebook下载用户的朋友列表: 该脚本使用selenium和Firefox自动执行登录过程，并从用户帐户中提取数据。您所要做的就是编写电子邮件和密码，脚本将完成所有工作。简单！用法 user:~$ python3 facebook_scraper.py --help usage: facebook_...

TitleFlex-Zillow-Realtor-scraper:房地产数据网络抓取工具: Selenium FireFox Web驱动程序 TitleFlex帐户指示要获取地址数据，请运行 python main.py 例子 python main.py 10236 Charing Cross Rd., Los Angeles, Calif. 90024 数据请参阅property_data.json以获取匿名的...

thal：Puppeteer和Chrome Headless的网页抓取入门: 由于缺少维护者，用于Firefox的Selenium IDE已停产。可以肯定的是，Chrome是Web浏览的市场领导者， Chrome Headless将成为Web应用程序自动测试的行业领导者。因此，我整理了这份入门指南，了解如何开始使用...

webscraping_python_selenium:使用Python和Selenium进行Web爬网Javascript生成的页面: 该代码显示了如何使用Python和Selenium进行网络抓取从Javascript生成的动态内容页面。我们使用NBA网站作为数据从球员中提取统计信息，并生成一个排名前10位的json文件。重要提示：仅用于教育目的入门这些说明将为...

蔡氏电路matlab仿真代码-docbao_crawler:Internet抓取框架支持javascript渲染和多任务处理: Crawler的源代码已在过去一年半的时间里经过不断构建和测试，并且可以在生产中稳定运行（另请参见在网站上同时使用10个Firefox浏览器并行扫描35页报纸的演示示例）。印刷机监控项目的扫描数据，位于）使用Crawler ...

Global site tag (gtag.js) - Google Analytics