本文介绍: 基于Python爬取了1500条阳光热线中关于城乡建设的留言,通过BERT预训练语言模型提取文本的语义向量特征,利用临近传播算法对语义向量特征进行聚类得到127类群众关注问题,定义热度评价指标并利用归一化和熵值法得到评价指标的权重以计算当前群众关注的热点问题。主成分分析:原理是将n维特征映射到k维上,k维是全新的正交特征,这k维特征成为主成分,是重新构造出来的k维特征。爬虫编码流程:指定url——发起请求——获取响应数据——数据解析——持久化存储。
基于BERT模型的群众问政留言之城乡建设热点大数据分析
基于Python爬取了1500条阳光热线中关于城乡建设的留言,通过BERT预训练语言模型提取文本的语义向量特征,利用临近传播算法对语义向量特征进行聚类得到127类群众关注问题,定义热度评价指标并利用归一化和熵值法得到评价指标的权重以计算当前群众关注的热点问题。
Python爬虫
- 指定url需要指定url路径、参数、请求头
- 发起请求:需要调用request库
- 获取相应数据:需要利用etree库获取
- 数据解析:利用xpath解析数据提取需要的内容
- 持久化存储:基于pandas保存数据
import requests
from lxml import etree
import pandas as pd
# 用于保存数据
col_t = ['编号','留言用户','问政标题']
df = pd.DataFrame(columns=col_t)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.87 Safari/537.36'
}
url = 'http://wz.sun0769.com/political/depart/getList?'
param={'id':'29','page':page}
# 发起请求
page_text = requests.get(url=url,params=param,headers=headers).text
# 获取响应数据
tree = etree.HTML(page_text)
# 数据解析
for li in li_list:
num = li.xpath('./span[1]/text()')[0]
title = li.xpath('./span[3]/a/text()')[0]
# 跳转到详情页面,获取详细信息
new_url = 'http://wz.sun0769.com/' + str(li.xpath('./span[3]/a/@href')[0])
detail_text = requests.get(url=new_url,headers=headers).text
new_tree = etree.HTML(detail_text)
name = new_tree.xpath('/html/body/div[3]/div[2]/div[2]/div[1]/span[1]/text()')
# 保存数据
df = df.append([{'编号':num, '留言用户':name, '问政标题':title,}],ignore_index=True)
数据清洗
- 空值:data.info()可以查看数据的统计信息,包括是否包含空值
- 重复值:data.duplicated([“列名1”,“列名2”]),根据某几列判断是否有重复值
- 异常值:正态分布发(平均值±2标准差)、四分位法、标准化得到的阈值作为判断标准
- 无意义的字符处理
hit_x = data['问政详情'] r1 = '[a-zA-Z0-9’!"#$%&'()*+,-./:;<=>?@,。?★、…【】《》?n“”t‘’r![\]^_`{|}~]+' # 采用正则表达式,除去非文字符号的内容 hit_x = hit_x.apply(lambda x: re.sub(r1, '',x)) data['问政详情'] = hit_x
热点挖掘问题
- 临近传播算法是一种不需要预先指定聚类类别的算法
- 热度度量指标主要是从留言的数量、相关用户数量、留言的集中度三个方面进行考虑的。
- 归一化的目的是为了消除不同指标间量纲的影响
- 熵值法则是通过计算不同指标下每个类别的比重得到每个指标的比重矩阵,也就是该指标的信息熵值,然后通过该信息熵计算其效用值进而得到每个指标的权重。
基于Python的学生综合评价自动评分
数据预处理
数据转换
特征选择
特征提取
模型建立
原文地址:https://blog.csdn.net/weixin_42227243/article/details/134698435
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.7code.cn/show_48890.html
如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。