【Selenium+Webmagic】基于JAVA语言实现爬取js渲染后的页面，附有代码

本文介绍: 事先声明笔者最近需要查看一些数据，自己挨个找太麻烦了，于是简单的学了一下爬虫。笔者在这里声明，，没有其他用途，希望来这篇文章学习的同学能抱有同样的目的。枪本身不坏，坏的是使用枪的人效果。

枪本身不坏，坏的是使用枪的人

chrome://version/

查看版本
在这里插入图片描述

Ch ro m eDri v er的版本需要仔细考究，一个Chro m eDri ver版本对应一个Chro me版本，由于Chro me版本更新太快，最近已经到119.xx了，ChromeDriver最高支持版本才115.xx，因此我们要先把本地的Chrome卸载，然后下载相应的历史版本
Chrome历史版本1
Chrome历史版本2 版本更多更全面
ChromeDriver历史版本

笔者以114为例子
在这里插入图片描述
 点击后会进入下载页，里面有windows版本以及note.txt,在tx t 文件中会写有支持哪个Chrome版本

我上面给出的Chrome历史版本1中没有114版本，在历史版本2中有，可以自行去下载

完成上面两步后理论上就可以停止Chrome的自动更新了，不过有网友说这么做之后，不要在Chrome中点击【帮助->关于Google Chrome】
这里笔者尝试过，确实有这种情况，为了避免，我们可以修改他的update.exe的名字：
笔者给出自己电脑上update的地址:（没有修改Chrome默认安装地址）

C:Program Files (x86)GoogleUpdate

chrome://version/

SpringBoot 2.6.13
Webmagic: 0.8.0
Selenium-java 3.141.59

<dependencies>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-thymeleaf</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>
        <!--Mybatis-plus-->
        <dependency>
            <groupId>com.baomidou</groupId>
            <artifactId>mybatis-plus-boot-starter</artifactId>
            <version>3.5.1</version>
        </dependency>
        <dependency>
            <groupId>com.baomidou</groupId>
            <artifactId>mybatis-plus-generator</artifactId>
            <version>3.3.2</version>
        </dependency>
        <dependency>
            <groupId>com.baomidou</groupId>
            <artifactId>mybatis-plus-extension</artifactId>
            <version>3.3.2</version>
        </dependency>
        <dependency>
            <groupId>com.baomidou</groupId>
            <artifactId>mybatis-plus-extension</artifactId>
            <version>3.5.1</version>
        </dependency>
        <dependency>
            <groupId>com.mysql</groupId>
            <artifactId>mysql-connector-j</artifactId>
            <scope>runtime</scope>
        </dependency>
        
        <!-- https://mvnrepository.com/artifact/us.codecraft/webmagic-extension -->
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <exclusions>
                <exclusion>
                    <groupId>org.slf4j</groupId>
                    <artifactId>slf4j-log4j12</artifactId>
                </exclusion>
            </exclusions>
            <version>0.8.0</version>
        </dependency>

        <!-- https://mvnrepository.com/artifact/com.google.guava/guava -->
        <dependency>
            <groupId>com.google.guava</groupId>
            <artifactId>guava</artifactId>
            <version>32.1.3-jre</version>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-configuration-processor</artifactId>
            <optional>true</optional>
        </dependency>
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
            <optional>true</optional>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-test</artifactId>
            <scope>test</scope>
        </dependency>
        <!--模拟浏览器行为-->
        <!-- https://mvnrepository.com/artifact/org.seleniumhq.selenium/selenium-java -->
        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
        </dependency>

    </dependencies>

下载semenium的依赖需要的时间会比较长，而且下载webmagic依赖的时候有些包在阿里云Central镜像下找不到, 需要修改为all
打开配置文件
在这里插入图片描述

 修改完保存即可

再看下面代码之前，还是要有一定的webmagic基础的，推荐BiliBili上一个教程，只需要两个多小时就能理解 webmagic的工作流程 Java爬虫案例实战-webmagic（第二话） 2021最新

我们要做的就是自定义一个xxPageProcessor，实现PageProc es sor 接口，重写两个方法
Site, process。
在process方法中将抓取到的url 地址添加到scheduler 队列中，图中一个request其实是一个url 地址，并不是http的请求；
其中resultItems 保存的是向pipeline 中写入的数据，是一个linkedhash 结构

/**
 * @Author：sichenyong
 * @Email: sichenyongwork@163.com
 * @Package：com.scy
 * @Project：crawer
 * @Date：2023/12/2 19:45
 * @description：使用css选择器解析
 */
@Slf4j
public class MyPageProcessor2 implements PageProcessor {
    public void process(Page page) {
        Html html = page.getHtml();
        String title = html.css("title", "text").get();
        log.info("title is {}", title);
        page.putField("title", title);

        String s = html.css("a", "href").get();
        // 向resultItems中写入数据
        page.putField("a", s);
        List<String> all = html.css("a", "href").all();
        page.putField("allLinks", all);

        page.putField("html",html);

    }

    public Site getSite() {
        return Site.me();
    }

    public static void main(String[] args) {
        MyPageProcessor2 myPageProcessor2 = new MyPageProcessor2();
        Spider.create(myPageProcessor2).addUrl("https://www.stats.gov.cn/sj/sjjd/202311/t20231115_1944598.html")
                .start();
    }
}

/**
 * @Author：sichenyong
 * @Email: sichenyongwork@163.com
 * @Package：com.scy.component
 * @Project：stats
 * @Date：2023/12/3 13:25
 * @description：
 */
@AllArgsConstructor
@NoArgsConstructor
@Data
@Slf4j
public class StatsPageProcessor implements PageProcessor {
    /**
     * @description: 过滤标题文章，保存含有filterTitle的文章
     * demo: filterTitle = "Java"
     *          函数会自动保存所有含有Java的文章，将不含有java的文章过滤掉
     * @author: sichenyong
     * @email: sichenyongwork@163.com
     * @date: 2023/12/3 14:03
     **/
    protected String filterTitle="";
    protected List<String> filterTitles;
    private String column;

    @Override
    public void process(Page page) {

        SeleniumProcessor seleniumProcessor1 = new SeleniumProcessor();
        seleniumProcessor1.setUp();
        // 获取解析js后的网页信息
        UsefulMessage usefulMessage = seleniumProcessor1.parseJS(page);

        // 是列表页
        if (usefulMessage.isListPage()) {
            // 获取所有的链接
            List<String> links = usefulMessage.getHrefs();
            // 传给Scheduler
            page.addTargetRequests(links);
            // 解析下一页
            String nextPage = usefulMessage.getNextPageUrl();
            page.addTargetRequest(nextPage);

            column = usefulMessage.getColumn();
            // 列表页面的数据不写入数据库
            page.getResultItems().setSkip(true);
        }
        else {
            // 详情页面写入数据库
//            parseStats(page);
            SeleniumProcessor seleniumProcessor = new SeleniumProcessor();
            seleniumProcessor.setUp();
            if (filterTitles == null) {
                seleniumProcessor.parse(page, filterTitle, column);
            }
            else {
                seleniumProcessor.parse(page, filterTitles, column);
            }
        }
    }


    /**
     * @description: 解析详情页面 - 无法解析js加载的页面
     * @Deprecated
     * @param: page
     * @return: void
     * @author: sichenyong
     * @email: sichenyongwork@163.com
     * @date: 2023/12/3 14:04
     **/
    @Deprecated
    private void parseStats(Page page) {
        Html html = page.getHtml();
        // 获取页面的标题
        String title = html.css("body > div > div.wrapper-content > div > div.detail-title > h1","text").get();
        // 如果文章中包含filterTitle，则保存文章
        if (title.contains(filterTitle)) {
            Stats stats = new Stats();
            //获取当前页面的url
            String currentUrl = page.getUrl().get();
            // 获取当前页面的pubtime
            String pubTime = html.css("body > div > div.wrapper-content > div > div.detail-title > div > h2:nth-child(1) > p", "text").get();
            // 获取页面的来源
            String pubSources = html.xpath("/html/body/div/div[3]/div/div[1]/div/h2[1]/span/text()").get();
            String regex = "：";
            if (pubSources.contains(":")) {
                regex = ":";
            }
            String[] strings = pubSources.split(regex);
            String pubSource = strings[strings.length-1];

            stats.setWebTitle(title);
            stats.setPubUrl(currentUrl);
            stats.setPubSource(pubSource);
            stats.setPubTime(pubTime);

            // 写入数据库
            page.putField("stats",stats);
        }
    }

    @Override
    public Site getSite() {
        Site site = new Site();
        // 设置重试间隔时间
        site.setRetryTimes(3);
        site.setRetrySleepTime(3000);
        site.setSleepTime(3000);
        return site;
    }
}