BOB综合体育APP 手把手教你采集京东出售数据并做浅易的数据分析和可视化

序言 BOB综合体育APP

行家益!吾是古月星辰,大三本科生,数学专科,Python爬虫喜欢益者一枚。今天给行家带JD数据的浅易采集和可视化分析,期待行家能够喜欢。

一、现在的数据

随着移动支付的通俗,电商网站一向涌现,原由电商网站产品太多,由用户产生的评论数据就更多了,这次吾们以京东为例,针对某一单品的评论数据进走数据采集,并且做浅易数据分析。

二、页面分析

这个是某一手机页面的细目页,对答着手机的各栽参数以及用户评论新闻,页面URL是:

https://item.jd.com/10022971060622.html#none 

然后通太甚析找到评论数据对答的数据接口,如下图所示:

它的乞求url:

https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_com ment98& productId=10022971060622 &score=0&sortType=5& page=0 &pageSize=10&isShadowSk u=0&fold=1 

仔细望到这两个关键参数BOB综合体育APP

1.productId:每个商品有一个id

2.page:对答的评论分页

三、解析数据

对评论数据的url发首乞求:

url:https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comm ent98& productId=10022971060622 &score=0&sortType=5& page=0 &pageSize=10&isShado wSku=0&fold=1 

json.cn掀开json数据,如下图所示:

分析可知,评论url中对答十条评论数据,对于每一条评论数据,吾们必要获取3条数

据,contents,color,size。

四、程序 1.导入有关库
import  requests import  json import  time import  openpyxl  #第三方模块,BOB综合体育APP用于操作Excel文件的 #模拟涉猎器发送乞求并获取回响反映终局 import random 
2.获取评论数据
def get_comments     return res 
3.获取最大页数
def get_max_page  #调用刚才写的函数向服务器发送乞求获取字典数据     return dic_data['maxPage'] 
4.挑取数据
def get_info  #调用本身写的函数将列外中的数据进走存储 
5.用于将爬取到的数据存储到Excel中
def save 
6.运走程序
if __name__ == '__main__':     productId='10029693009906' # 单品id     get_info 

五、浅易数据 1.浅易配置
# 导入有关库 import pandas as pd  import matplotlib.pyplot as plt # 这两走代码解决 plt 中文表现的题目 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False # 原由采集的时候异国竖立外头此处竖立外头 data = pd.read_excel 

2.手机颜色数目对比
x = ['白色''暗色''绿色''蓝色''红色''紫色'] y = [3142951811732710] plt.bar 

能够望出用户购买的手机白色和暗色的机型比较多.占有了60%多。3.评论词云展现1)先要挑取评论数据

import xlrd def strs  # 关闭写入的文件 

2)词云展现

# 导入相答的库 import jieba from PIL import Image import numpy as np from wordcloud import WordCloud import matplotlib.pyplot as plt # 导入文本数据并进走浅易的文本处理 # 往失踪换走符和空格 text = open 

仔细:这边吾们不及行使encoding='uth-8'会报出一个舛讹:

> 'utf-8' codec can't decode byte 0xd3 in position 0: invalid continuation byte 

以是吾们必要改成gbk。

word_list = jieba.cut 

末了得到的奏效图如下图所示:

本文转载自微信公多号「Python爬虫与数据发掘」能够议决以下二维码关注。转载本文请有关Python爬虫与数据发掘公多号。

SpringBoot项现在打包+Shell脚本安放实践太有用了! 8月份Github上炎门的开源项现在 企业项现在开发的主要知识之多环境 奇安信零信任坦然项现在入选工信部《2021年大数据产业发展试点示范项现在名单》 淘客项现在Coupons在Linux环境安放指南

posted on 2021-11-21  BOB(中国)官方入口-BOB电竞平台  阅读量:

版权信息

Powered by BOB(中国)官方入口-BOB电竞平台 @2018 RSS地图 HTML地图