Python进阶–爬取美女图片壁纸(基于回车桌面网的爬虫程序)

本文介绍: 爬取美女图片，详细解释每一个步骤，满足各种下载需求，给出所有源代码，小白也能看懂！！！

经过抓包搜寻，可以发现：

美女页面每一页的url的构造为：以数字进行标记页码

'https://m.mm.enterdesk.com/1.html'
'https://m.mm.enterdesk.com/2.html'
'https://m.mm.enterdesk.com/3.html'
'https://m.mm.enterdesk.com/4.html'
'https://m.mm.enterdesk.com/5.html'
            ....
'https://m.mm.enterdesk.com/262.html'
'https://m.mm.enterdesk.com/264.html'

美女页面的标签的url的构造为：以风格类型的中文拼音+meinv

'https://mm.enterdesk.com/dalumeinv/'
'https://mm.enterdesk.com/rihanmeinv/'
'https://mm.enterdesk.com/gangtaimeinv/'
'https://mm.enterdesk.com/dongmanmeinv/'
'https://mm.enterdesk.com/qingchunmeinv/'
'https://mm.enterdesk.com/oumeimeinv/'

其他的url需要通过xPath来定位，根据所在位置的特点来定位

美女页面的各种类型的美女图片链接xPath定位：//div[@class="mbig_pic_list_li"]//dd//a/@href
一种类型美女图片的标题xPath定位://h1[@class="m_h1"]/a/text()
一种类型美女图片的图片的urlxPath定位：//div[@class="swiper-wrapper"]//img/@src

import os.path
from lxml import etree
import requests
# 1、获取回车桌面美女图片的网页源代码
header = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Mobile Safari/537.36',
          'cookie':'Hm_lvt_86200d30c9967d7eda64933a74748bac=1707274876; t=8207bbae9940b5f445e4f3aa1907d202; r=9737; Hm_lpvt_86200d30c9967d7eda64933a74748bac=1707276063'}
index_url = 'https://m.mm.enterdesk.com/'
r = requests.get(index_url, headers=header)

def get_curindex_titlecontent(index_url):
    r = requests.get(index_url, headers=header)
    html = etree.HTML(r.text)
    titles = html.xpath('//h1[@class="m_h1"]/a/text()')
    pictures = html.xpath('//div[@class="marc_pandn"]//div[@class="swiper-slide"]//img/@src')
    return titles, pictures

def updownload(index_url):
    titles,pictures = get_curindex_titlecontent(index_url)
    titles = titles[0]
    # 创建目录
    if not os.path.exists(f'图片/{titles}/'):
        os.makedirs(f'图片/{titles}')
    num = 1
    for link in pictures:
        r = requests.get(link, headers=header).content
        with open(f'图片/{titles}/{titles}{num}.jpg', 'wb') as f:
            f.write(r)
            print(f"已下载...{titles}...编号为{num}的图片")
        num+=1

def get_curindex_links(index_url):
    r = requests.get(index_url, headers=header)
    html = etree.HTML(r.text)
    links = html.xpath('//div[@class="mbig_pic_list_li"]//dd//a/@href')
    return links

def get_nextindex_links(index_url):
    r = requests.get(index_url, headers=header)
    html = etree.HTML(r.text)
    links = html.xpath('//div[@class="listpages"]//a[@class="next_p"]/@href')
    return links

import os.path
from lxml import etree
import requests
# 1、获取回车桌面美女图片的网页源代码
header = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Mobile Safari/537.36',
          'cookie':'Hm_lvt_86200d30c9967d7eda64933a74748bac=1707274876; t=8207bbae9940b5f445e4f3aa1907d202; r=9737; Hm_lpvt_86200d30c9967d7eda64933a74748bac=1707276063'}
index_url = 'https://m.mm.enterdesk.com/'
r = requests.get(index_url, headers=header)
# 2、获取当前回车桌面美女页面的各种美女类型图片的链接
def get_curindex_links(index_url):
    r = requests.get(index_url, headers=header)
    html = etree.HTML(r.text)
    links = html.xpath('//div[@class="mbig_pic_list_li"]//dd//a/@href')
    return links
# 3、获取下一页的美女页面链接
def get_nextindex_links(index_url):
    r = requests.get(index_url, headers=header)
    html = etree.HTML(r.text)
    links = html.xpath('//div[@class="listpages"]//a[@class="next_p"]/@href')
    return links
# 4、获取一种美女类型的图片及类型名
def get_curindex_titlecontent(index_url):
    r = requests.get(index_url, headers=header)
    html = etree.HTML(r.text)
    titles = html.xpath('//h1[@class="m_h1"]/a/text()')
    pictures = html.xpath('//div[@class="swiper-wrapper"]//img/@src')
    return titles, pictures
# 5、将图片进行下载保存到新的目录中
def updownload(index_url):
    titles,pictures = get_curindex_titlecontent(index_url)
    titles = titles[0]
    # 创建目录
    if not os.path.exists(f'图片/{titles}/'):
        os.makedirs(f'图片/{titles}')
    num = 1
    for link in pictures:
        r = requests.get(link, headers=header).content
        with open(f'图片/{titles}/{titles}{num}.jpg', 'wb') as f:
            f.write(r)
            print(f"已下载...{titles}...编号为{num}的图片")
        num+=1
# 6、根据顺序来调整调用顺序
# a、获取各种类型美女图片的链接
num = 1
a = 1
while 1:
    links = get_curindex_links(index_url)
    print(f"正在下载第{num}页")
    print(f"下载链接为：{index_url}")
    for link in links:
# b、获取其中一个链接的内容和标题并下载保存
        print(f"正在下载第{a}种类型的美女图片")
        updownload(link)
        a+=1
    num+=1
    next_page = get_nextindex_links(index_url)
    # 将列表转换成字符串
    index_url ="".join(next_page)

import os.path
from lxml import etree
import requests
# 1、获取回车桌面美女图片的网页源代码
header = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Mobile Safari/537.36',
          'cookie':'Hm_lvt_86200d30c9967d7eda64933a74748bac=1707274876; t=8207bbae9940b5f445e4f3aa1907d202; r=9737; Hm_lpvt_86200d30c9967d7eda64933a74748bac=1707276063'}
index_url = 'https://m.mm.enterdesk.com/'
r = requests.get(index_url, headers=header)
# 2、获取当前回车桌面美女页面的各种美女类型图片的链接
def get_curindex_links(index_url):
    r = requests.get(index_url, headers=header)
    html = etree.HTML(r.text)
    links = html.xpath('//div[@class="mbig_pic_list_li"]//dd//a/@href')
    return links
# 3、获取一种美女类型的图片及类型名
def get_curindex_titlecontent(index_url):
    r = requests.get(index_url, headers=header)
    html = etree.HTML(r.text)
    titles = html.xpath('//h1[@class="m_h1"]/a/text()')
    pictures = html.xpath('//div[@class="swiper-wrapper"]//img/@src')
    return titles, pictures
# 4、将图片进行下载保存到新的目录中
def updownload(index_url):
    titles,pictures = get_curindex_titlecontent(index_url)
    titles = titles[0]
    # 创建目录
    if not os.path.exists(f'图片/{titles}/'):
        os.makedirs(f'图片/{titles}')
    num = 1
    for link in pictures:
        r = requests.get(link, headers=header).content
        with open(f'图片/{titles}/{titles}{num}.jpg', 'wb') as f:
            f.write(r)
            print(f"已下载...{titles}...编号为{num}的图片")
        num+=1
# 5、根据顺序来调整调用顺序
# a、获取各种类型美女图片的链接
a = 1
# 输入自己想要的页码范围内的美女图片
x = input("请输入起始页的页码：")
y = input("请输入结束页的页码：")
# 因为range函数是左闭右开的情况，所以y需要自增1
for page in range(int(x), int(y)+1):
    new_index = index_url + str(page) + '.html'
    links = get_curindex_links(new_index)
    print(f"正在下载第{page}页")
    print(f"下载链接为：{new_index}")
    for link in links:
    # b、获取其中一个链接的内容和标题并下载保存
        print(f"正在下载第{a}种类型的美女图片")
        updownload(link)
        a+=1

import os.path
from lxml import etree
import requests
# 1、获取回车桌面美女图片的网页源代码
header = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Mobile Safari/537.36',
          'cookie':'Hm_lvt_86200d30c9967d7eda64933a74748bac=1707274876; t=8207bbae9940b5f445e4f3aa1907d202; r=9737; Hm_lpvt_86200d30c9967d7eda64933a74748bac=1707276063'}
index_url = 'https://m.mm.enterdesk.com/'
r = requests.get(index_url, headers=header)
# 2、获取当前回车桌面美女页面的各种美女类型图片的链接
def get_curindex_links(index_url):
    r = requests.get(index_url, headers=header)
    html = etree.HTML(r.text)
    links = html.xpath('//div[@class="mbig_pic_list_li"]//dd//a/@href')
    return links
# 3、获取下一页的美女页面链接
def get_nextindex_links(index_url):
    r = requests.get(index_url, headers=header)
    html = etree.HTML(r.text)
    links = html.xpath('//div[@class="listpages"]//a[@class="next_p"]/@href')
    return links
# 4、获取一种美女类型的图片及类型名
def get_curindex_titlecontent(index_url):
    r = requests.get(index_url, headers=header)
    html = etree.HTML(r.text)
    titles = html.xpath('//h1[@class="m_h1"]/a/text()')
    pictures = html.xpath('//div[@class="marc_pandn"]//div[@class="swiper-slide"]//img/@src')
    return titles, pictures
# 5、将图片进行下载保存到新的目录中
def updownload(index_url):
    titles,pictures = get_curindex_titlecontent(index_url)
    titles = titles[0]
    # 创建目录
    if not os.path.exists(f'图片/{keyword}/{titles}/'):
        os.makedirs(f'图片/{keyword}/{titles}')
    num = 1
    for link in pictures:
        r = requests.get(link, headers=header).content
        with open(f'图片/{keyword}/{titles}/{titles}{num}.jpg', 'wb') as f:
            f.write(r)
            print(f"已下载...{titles}...编号为{num}的图片")
        num+=1
# 6、根据键盘的输入来下载想要类型的美女图片
# a、读取键盘消息
keyword = input("请输入想要下载的类型的美女图片(中文拼音)：")
index_url = index_url + keyword
num = 1
a = 1
while 1:
    links = get_curindex_links(index_url)
    print(f"正在下载第{num}页")
    print(f"下载链接为：{index_url}")
    for link in links:
# b、获取其中一个链接的内容和标题并下载保存
        print(f"正在下载第{a}种类型的美女图片")
        updownload(link)
        a+=1
    num+=1
    next_page = get_nextindex_links(index_url)
    # 将列表转换成字符串
    index_url ="".join(next_page)

import os.path
from lxml import etree
import requests
# 1、获取回车桌面美女图片的网页源代码
header = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Mobile Safari/537.36',
          'cookie':'Hm_lvt_86200d30c9967d7eda64933a74748bac=1707274876; t=8207bbae9940b5f445e4f3aa1907d202; r=9737; Hm_lpvt_86200d30c9967d7eda64933a74748bac=1707276063'}
index_url = 'https://m.mm.enterdesk.com/'
r = requests.get(index_url, headers=header)
# 2、获取当前回车桌面美女页面的各种美女类型图片的链接
def get_curindex_links(index_url):
    r = requests.get(index_url, headers=header)
    html = etree.HTML(r.text)
    links = html.xpath('//div[@class="mbig_pic_list_li"]//dd//a/@href')
    return links
# 3、获取一种美女类型的图片及类型名
def get_curindex_titlecontent(index_url):
    r = requests.get(index_url, headers=header)
    html = etree.HTML(r.text)
    titles = html.xpath('//h1[@class="m_h1"]/a/text()')
    pictures = html.xpath('//div[@class="swiper-wrapper"]//img/@src')
    return titles, pictures
# 4、将图片进行下载保存到新的目录中
def updownload(index_url):
    titles,pictures = get_curindex_titlecontent(index_url)
    titles = titles[0]
    print(titles)
    # 创建目录
    if not os.path.exists(f'图片/{keyword}/{titles}/'):
        os.makedirs(f'图片/{keyword}/{titles}')
    num = 1
    for link in pictures:
        r = requests.get(link, headers=header).content
        with open(f'图片/{keyword}/{titles}/{titles}{num}.jpg', 'wb') as f:
            f.write(r)
            print(f"已下载...{titles}...编号为{num}的图片")
        num+=1
# 5、根据键盘的输入来下载想要类型的美女图片
# a、读取键盘消息
keyword = input("请输入想要下载的类型的美女图片(中文拼音)：")
index_url = index_url + keyword +'/'
# 输入自己想要的页码范围内的美女图片
x = input("请输入起始页的页码：")
y = input("请输入结束页的页码：")
# 因为range函数是左闭右开的情况，所以y需要自增1
for page in range(int(x), int(y)+1):
    new_index = index_url + str(page) + '.html'
    links = get_curindex_links(new_index)
    print(f"正在下载第{page}页")
    print(f"下载链接为：{new_index}")
    for a, link in enumerate(links):
    # b、获取其中一个链接的内容和标题并下载保存
        print(f"正在下载第{page}页的第{a}种类型的美女图片")
        updownload(link)