探索Scrapy中间件：自定义Selenium中间件实例解析

本文介绍: Scra py 中间件是在Scra py 引擎处理请求和响应的过程中，允许你在特定的点上自定义处理逻辑的组件。它们在整个爬取过程中能够拦截并处理Scra py 引擎发送和接收的请求和响应。全局性处理请求和响应：中间件可以截取所有请求和响应，允许你对它们进行全局性的修改，例如添加自定义的请求头、代理设置或处理响应数据等。自定义爬取过程：通过中间件，你可以自定义爬取的逻辑。例如，在请求被发送之前，可以通过中间件对请求进行处理，或者在收到响应后对响应进行预处理，以适应特定需求或网站的要求。

Scra py是一个强大的Py th on 爬虫框架，可用于从网站上抓取数据。本教程将指导你创建自己的Scra py 爬虫。其中，中间件是其重要特性之一，允许开发者在爬取过程中拦截和处理请求与响应，实现个性化的爬虫行为。

本篇博客将深入探讨Scra py 中间件的关键作用，并以一个实例详细介绍了自定义的Se len i u m中间件。我们将从Scra py的基本设置开始，逐步讲解各项常用设置的作用与配置方法。随后，重点关注中间件的重要性，介绍了下载器中间件和Sp ide r中间件的作用，并通过一个自定义Se len i u m中间件的示例，演示了如何利用Se len ium 实现页面渲染，并在Scra py中应用该中间件。
如果对您对scrapy不了解，建议先了解一下：
初识Scrapy：Python中的网页抓取神器 – 掘金 (juejin.cn)

本文件为scrapy的配置文件.

以下是有关Scra p y 设置的详细介绍：

这些设置可以在Scrap y 项目中的settings.py文件中进行配置。例如：


BOT_NAME = 'mybot'

SPIDER_MODULES = ['mybot.spiders']
NEWSPIDER_MODULE = 'mybot.spiders'

ROBOTSTXT_OBEY = True

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'

DOWNLOAD_DELAY = 2
CONCURRENT_REQUESTS_PER_IP = 4

COOKIES_ENABLED = False

DEFAULT_REQUEST_HEADERS = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
}

ITEM_PIPELINES = {
    'mybot.pipelines.MyPipeline': 300,
}

DOWNLOADER_MIDDLEWARES = {
    'mybot.middlewares.MyDownloaderMiddleware': 543,
}

SPIDER_MIDDLEWARES = {
    'mybot.middlewares.MySpiderMiddleware': 543,
}

AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0

以上是一些常用的Scrapy设置，可以根据需要进行调整和扩展，以满足特定爬虫的要求。

header={
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
    'Cookie':"*****************************************************"
}
for i in range(1, 2):
    key = scenic_namelist[i]
    newurl = 'https:/www.***********.com/ticket/list.htm?keyword=' + key + '&amp;region=&amp;from=mpl_search_suggest'
    print(newurl)

    yield Request(url=newurl,headers=header)

from selenium import webdriver
from scrapy.http import HtmlResponse
from selenium.common.exceptions import TimeoutException
from scrapy import signals

class SeleniumMiddleware(object):
    def __init__(self):
        self.driver = webdriver.Chrome(executable_path='path_to_chromedriver')

    @classmethod
    def from_crawler(cls, crawler):
        middleware = cls()
        crawler.signals.connect(middleware.spider_closed, signals.spider_closed)
        return middleware

    def process_request(self, request, spider):
        if request.meta.get('selenium'):
            try:
                self.driver.get(request.url)
                body = self.driver.page_source.encode('utf-8')
                return HtmlResponse(self.driver.current_url, body=body, encoding='utf-8', request=request)
            except TimeoutException:
                return HtmlResponse(self.driver.current_url, status=504, request=request)
        return None

    def spider_closed(self, spider):
        self.driver.quit()

这个中间件示例使用了Selenium库，它会在处理Scrapy请求时，检查请求的元数据中是否包含selenium字段。如果包含，它将使用Selenium打开浏览器并加载页面，然后返回页面的HTML内容给Spider。request.meta.get也是我们判断某个中间件是否启动常用操作。

DOWNLOADER_MIDDLEWARES = {
    'your_project_name.middlewares.SeleniumMiddleware': 543,
}

SELENIUM_BROWSER = 'Chrome'  # 设置浏览器类型，可以是Chrome/Firefox等

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

scrapy 中间件自定义

简介

编写 settings.py

自定义中间件

发表回复取消回复

编写settings.py

自定义中间件

相关文章

发表回复 取消回复

编写 settings.py

发表回复取消回复