当前位置：首页 > news >正文

中山企业门户网站建设广州网络推广选择

news 2025/7/14 19:40:42

中山企业门户网站建设,广州网络推广选择,天津市建设中标公示网站,泰安市做网站的公司前言《保你平安》今天上映诶，有朋友看过吗，咋样啊这是我最近比较想看的电影了，不过不知道这影评怎么样，上周末的点映应该是有蛮多人看的吧，可以采集采集评论看过的朋友发出来的评论，分析分析这周刚好…

前言

《保你平安》今天上映诶，有朋友看过吗，咋样啊

这是我最近比较想看的电影了，不过不知道这影评怎么样，上周末的点映应该是有蛮多人看的吧，可以采集采集评论看过的朋友发出来的评论，分析分析

这周刚好双休，正正好就可以去看看

在这里插入图片描述

okok，话不多说，咱就开始吧

开发环境

Python 3.8
Pycharm

代码实现

基本思路

数据来源分析:

明确需求:

采集的网站是什么?
采集的数据是什么?
评论相关数据

抓包分析相关数据来源
通过浏览器自带开发者工具进行抓包分析 <重点>

打开开发者工具: F12 或者鼠标右键点击检查选择network
刷新网页: 让本网页的数据内容重新加载一遍
关键字搜索: 通过关键字<要的数据>, 搜索查询相对应的数据包

利用获取的数据进行可视化分析

【完整源码文末名片获取】

发送请求

# 请求链接
690643772 ### 源码领取
url = f'https://****/subject/35457272/comments?start=20&limit=20&status=P&sort=new_score'
# 伪装模拟
headers = {# User-Agent 用户代理, 表示浏览器基本身份标识'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 发送请求
response = requests.get(url=url, headers=headers)
# <Response [200]>
print(response)

解析数据

# 把获取下来html字符串数据 <response.text>, 转成可解析对象 <Selector xpath=None data='<html lang="zh-CN" class="ua-windows ...'>
selector = parsel.Selector(response.text)  # ---> 你现金是美元, 没办法在中国使用 <先去银行兑换RMB>
# 第一次提取, 所有div标签
divs = selector.css('div.comment-item')
# for循环遍历, 把列表里面元素一个一个提取出来
for div in divs:name = div.css('.comment-info a::text').get()  # 昵称rating = div.css('.rating::attr(title)').get()  # 推荐date = div.css('.comment-time::attr(title)').get()  # 时间area = div.css('.comment-location::text').get()  # 地区votes = div.css('.votes::text').get()  # 有用short = div.css('.short::text').get().replace('\n', '')  # 评论# 数据存字典里面dit = {'昵称': name,'推荐': rating,'时间': date,'地区': area,'有用': votes,'评论': short,690643772 ### 源码领取}

写入数据

f = open('保你平安.csv', mode='a', encoding='utf-8-sig', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['昵称','推荐','时间','地区','有用','评论',
])
csv_writer.writeheader()

请添加图片描述

可视化展示

读取相关数据

df = pd.read_csv('保你平安.csv')
df.head()

请添加图片描述

地区分布

import pyecharts.options as opts
from pyecharts.charts import Piedata_pair = [list(z) for z in zip(area_type, area_num)]
data_pair.sort(key=lambda x: x[1])d = (Pie(init_opts=opts.InitOpts(bg_color="#2c343c")).add(series_name="豆瓣影评",data_pair=data_pair,rosetype="radius",radius="55%",center=["50%", "50%"],label_opts=opts.LabelOpts(is_show=False, position="center"),)690643772 ### 源码领取.set_global_opts(title_opts=opts.TitleOpts(title="地区分布",pos_left="center",pos_top="20",title_textstyle_opts=opts.TextStyleOpts(color="#fff"),),legend_opts=opts.LegendOpts(is_show=False),).set_series_opts(tooltip_opts=opts.TooltipOpts(trigger="item", formatter="{a} <br/>{b}: {c} ({d}%)"),label_opts=opts.LabelOpts(color="rgba(255, 255, 255, 0.3)"),)
)
d.render_notebook()