作者:高玉涵
时间:2024.1.11 08:30
博客:blog.csdn.net/cg_i
环境:Windows 10 专业版 22H2、Python 3.10.4、selenium 4.10.0
前言
在 WEB 功能测试领域,Selenium 是一个免费、开源、跨平台的重要工具,它可以对 Chrome、Firefox、Safari 等浏览器进行测试,支持多种语言(如 Python、Java、C#、Ruby、JavaScript 等),它足以胜任一切 WEB 功能测试任务。优点:它可以模拟浏览器,打开你需要爬取的网站,可以大概率避免被封。因为我们用 Python 的 requets 库时,有些反爬严格的网站,可以识别出你当前访问是机器,导致爬取数据失败。缺点:速度慢。因为 Selenium 必须要打开浏览器,然后模拟点击网页,这个过程和你打开浏览器访问网站一样的速度。
然而,工具本质上只是工具,并不能真正发挥价值。要让 Selenium 在爬取数据中发挥真正功能,不仅需要有强大工具,还需有有效的策略。下面我会给出一个虚构的需求,通过简单举例自动化登录 SOHU 邮箱,浅尝辄止的介绍如何使用 Selenium,方便让你了解其价值,希望大家能从中有所收获。当然,限于本人水平有限,文中举例难免会有疏漏或不当之处,敬请广大读者及同行批评指正,谢谢各位!
一、背景知识
Selenium 4
Selenium 是一系列基于 Web 的自动化工具。它提供了一系统操作函数,用于支持 Web 自动化。这些函数非常灵活,能够通过多种方式定位界面元素、操作元素并获取元素的各项信息。Selenium 2 开始引入了 WebDriver,由浏览器厂商基于一定规范提供原生级别的操作实现,就相当于用户在真实操作浏览器。时至今日,Selenium 4,已经非常成熟,本文示例采用此版本。
Selenium WebDriver
是一种简洁而紧密的编程接口,可以通过多种编程语言(例如 Python、Java、C#、Ruby等)来调用 WebDriver。支持全部主流浏览器:例如 Firefox、Safari、Edge、Chrome 及 Internet Explorer 等,在这些浏览器中的自动化操作等同于按真实用户的方式进行交互。WebDriver 标准是 W3C 标准:主要的浏览器厂商(Mozilla、Google、Apple、Microsoft等)都支持 WebDriver 标准,将据此优化浏览器及开发控制代码(可将控制代码称为驱动程序,各个浏览器拥有自身的 WebDriver 驱动程序)提供更统一的原生操作支持,使自动化脚本更加稳定。