本文介绍: 基于Python爬取了1500条阳光热线中关于城乡建设留言通过BERT预训练语言模型提取文本语义向量特征利用临近传播算法语义向量特征进行聚类得到127类群众关注问题定义热度评价指标利用归一化和熵值法得到评价指标权重计算当前群众关注热点问题。主成分分析原理是将n特征映射k维上,k维是全新的正交特征,这k特征成为成分,是重新构造出来的k特征爬虫编码流程指定url——发起请求——获取响应数据——数据解析——持久存储

基于BERT模型的群众问政留言之城乡建设热点数据分析

基于Python爬取了1500条阳光热线中关于城乡建设的留言,通过BERT预训练语言模型提取文本语义向量特征,利用临近传播算法语义向量特征进行聚类得到127类群众关注问题,定义热度评价指标利用归一化和熵值法得到评价指标权重计算当前群众关注热点问题。

Python爬虫

爬虫编码流程:指定url——发起请求——获取响应数据——数据解析——持久存储

import requests
from lxml import etree
import pandas as pd
# 用于保存数据
col_t = ['编号','留言用户','问政标题']
df = pd.DataFrame(columns=col_t)

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.87 Safari/537.36'
}
url = 'http://wz.sun0769.com/political/depart/getList?'
param={'id':'29','page':page}
# 发起请求
page_text = requests.get(url=url,params=param,headers=headers).text
# 获取响应数据
tree = etree.HTML(page_text)
# 数据解析
for li in li_list:
    num = li.xpath('./span[1]/text()')[0]
    title = li.xpath('./span[3]/a/text()')[0]
    # 跳转详情页面获取详细信息
    new_url = 'http://wz.sun0769.com/' + str(li.xpath('./span[3]/a/@href')[0])
    detail_text = requests.get(url=new_url,headers=headers).text
    new_tree = etree.HTML(detail_text)
    name = new_tree.xpath('/html/body/div[3]/div[2]/div[2]/div[1]/span[1]/text()')
    # 保存数据
    df = df.append([{'编号':num, '留言用户':name, '问政标题':title,}],ignore_index=True)

数据清洗

python数据处理方法

热点挖掘问题

基于Python学生综合评价自动评分

数据预处理

数据转换

特征选择

特征提取

模型建立

原文地址:https://blog.csdn.net/weixin_42227243/article/details/134698435

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_48890.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注