python爬虫：Ajax异步爬取数据（b站评论区）

本文介绍: 爬虫时遇到很多数据并不在访问网址的返回包里，而是随着用户下拉逐步加载的，也就是用到了Aja x，那么这时我们该如何爬取我们想要的数据呢？

爬虫时遇到很多数据并不在访问网址的返回包里，而是随着用户下拉逐步加载的，也就是用到了Aja x，那么这时我们该如何爬取我们想要的数据呢？这里用爬取 b站评论区相关数据为例，练习一下python 爬虫异步爬取数据的相关流程，完整程序实例在最后面：

用到的包：

import requests

import time

爬虫相关主要还是request s包，练习用脚本本身也并不复杂。

根据写一个爬虫脚本的一般流程，第一步显然是找到含有我们需要信息的相关网页链接，这里我们的目标是b站的评论区。随便点开一个视频。

url = f'https://api.bilibili.com/x/v2/reply/main?csrf=ee494c6f80d497b7453d4acfa7f0e3de&amp;mode=2&amp;next=0&amp;oid=680890718&amp;plat=1&amp;seek_rpid=&amp;type=1'#资源对应链接
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0',
        }#请求头
response = requests.get(url=url, headers=headers)#连接
response.encoding = 'utf-8'#设置编码方式
printf(response.json)#试试看抓不抓得到

result = []

for j in response.json()['data']['replies']:
    result.append(j['member']['uname'])
print(result)

for j in response.json()['data']['replies']:
    result.append(j['content']['message'])
print(result)

for j in response.json()['data']['replies']:
    result.append(j['member']['uname']+','+str(j['member']['level_info']['current_level']))
result = [i.split(',') for i in result]

for i in range(0,10):
    time.sleep(1)
    url = f'https://api.bilibili.com/x/v2/reply/main?csrf=ee494c6f80d497b7453d4acfa7f0e3de&amp;mode=2&amp;next={i}&amp;oid=680890718&amp;plat=1&amp;seek_rpid=&amp;type=1'

......

result = list(set(result))

for j in response.json()['data']['replies']:
    result.append(j['member']['uname']+','+str(j['member']['level_info']['current_level']))
result = list(set(result))
result = [i.split(',') for i in result]
with open('bili.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    # 写入数据
    writer.writerows(result)

print("Writing complete")

import requests
import time
import csv

result = []
for i in range(0,10):
    time.sleep(1)
    url = f'https://api.bilibili.com/x/v2/reply/main?csrf=ee494c6f80d497b7453d4acfa7f0e3de&mode=2&next={i}&oid=680890718&plat=1&seek_rpid=&type=1'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0',
        }
    response = requests.get(url=url, headers=headers)
    response.encoding = 'utf-8'
    # print(response.json())
    for j in response.json()['data']['replies']:
        result.append(j['member']['uname']+','+str(j['member']['level_info']['current_level']))
result = list(set(result))
result = [i.split(',') for i in result]
# print(result)
with open('bili.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    # 写入数据
    writer.writerows(result)

print("Writing complete")