DrissionPage使用实践
简介
本文主要记录一个selenium的替代工具 ——- DrissionPage
我通常采用python脚本获取数据的方式大概分三类:
是使用requests发送请求获取数据,这种方式通常适用于目标数据的接口比较容易模拟的情况。
使用selenium 控制浏览器进行网页交互 然后获取数据,这种一般适合网页可见数据的获取,只要不是反爬很严格的网站,用这种方式都可以搞。
直接写脚本链接数据库获取数据,这种一般都是内部的一些平台数据需要汇总处理的场景会用到,毕竟外部的数据库不可能轻易链接。
背景介绍
平时负责的应用的一些数据需要去firebase(简称fb)和google play console(简称gp) 这两个平台去获取,由于这些数据都没有现成的api,所以采用了上述的第二种方式 即使用selenium模拟用户登录的方式去获取数据。近期这俩平台前端页面有了新的更新,gp还好,比较好适配,fb就麻烦了,更新之后发现之前的方式不好使了,导致获取效率大不如从前。本打算放弃了,隔壁老哥给我推荐了这款工具,然后就尝试了一下,确实很行。
DrissionPage大致介绍
是一个基于 python 的网页自动化工具,它既能控制浏览器,也能收发数据包,还能把两者合而为一,可兼顾浏览器自动化的便利性和 requests 的高效率,它的语法简洁而优雅,代码量少,对新手友好。以前的版本是对 selenium 进行重新封装实现的。从 3.0 开始,作者另起炉灶,对底层进行了重新开发,摆脱对 selenium 的依赖,增强了功能,提升了运行效率。(听起来就很厉害的样子)
和selenium对比,亮点如下:
无 webdriver 特征
无需为不同版本的浏览器下载不同的驱动
运行速度更快
可以跨iframe查找元素,无需切入切出
把iframe看作普通元素,获取后可直接在其中查找元素,逻辑更清晰
可以同时操作浏览器中的多个标签页,即使标签页为非激活状态,无需切换
可以直接读取浏览器缓存来保存图片,无需用 GUI 点击另存
可以对整个网页截图,包括视口外的部分(90以上版本浏览器支持)
可处理非open状态的 shadow-root
使用文档 如下链接:
1 |
|
我本次主要用到的功能
切换iframe
常规的定位标签,获取值
下面是主要的代码逻辑,可供参考
1 |
|
总结
本次使用DrissionPage后发现获取数据的时间比之前短了很多,而且这个工具对于需要登陆的网站,只需要在本地登录一次之后,在本地浏览器的登录态失效之前可不进行登录操作,也不需要自己去琢磨保存登录态等操作,比较方便。后续遇到同类型场景不再使用selenium了。