手机评论文本挖掘与数据分析(Python)

Python011

手机评论文本挖掘与数据分析(Python),第1张

目的

        各大电商竞争越来激烈,为了提升客户服务质量,除了打价格战外,了解客户的需求点,对消费者的文本评论进行数据挖掘,倾听客户的心声越来越重要。

工具

1、贝壳采集器

2、Google浏览器

3、Python3.7 + Pycharm

数据采集

①本文对京东平台的手机进行爬虫,首先进入京东商城,选择一款手机,这里以华为Mate 30 Pro 5G为例

②在采集平台输入网址,点击贝壳采集开始配置信息

③因为是采集评论所以还需要进行下预操作配置切换页面:点击预操作按钮-->添加点击元素按钮-->左键点击流程图中添加元素按钮(悬浮显示操作键)-->点击悬浮显示操作键<选择按钮> -->点击网页商品评论TAB页切换按钮 -->点击保存

④没有识别出评论信息,手工操作下:清空字段-->更改页面类型为手工识别列表 -->选中两个一样元素(这里两个用户名称) -->下一页未自动识别成功-->更改分页类型为手动点击下一页-->配置完成-->开始采集

数据预处理

当我们通过爬虫获取到我们想要的数据之后,进行简单的观察,可以发现评论的一些特点:

文本短,基本上大量的评论就是一句话.

情感倾向明显:明显的词汇如”好” “可以”

语言不规范:会出现一些网络用词,符号,数字等

重复性大:一句话出现词语重复

数据量大.

故我们需要对这些数据进行数据预处理

数据预处理包括:去重、分词

下面我们将进行数据清洗

import jieba

#评论内容进行去重

def quchong(infile, outfile):

    infopen = open(infile, 'r', encoding='utf-8')

    outopen = open(outfile, 'w', encoding='utf-8')

    lines = infopen.readlines()

    list_1 = []

    for line in lines:

        if line not in list_1:

            list_1.append(line)

            outopen.write(line)

    infopen.close()

    outopen.close()

quchong("E:/comments/华为P30.txt", "E:/comments/P30去重.txt")

# jieba.load_userdict('userdict.txt')

#创建停用词list

def stopwordslist(filepath):

    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]

    return stopwords

#对评论内容进行分词

def seg_sentence(sentence):

    sentence_seged = jieba.cut(sentence.strip())

stopwords = stopwordslist('stopwords.txt')  #这里加载停用词的路径

    outstr = ''

    for word in sentence_seged:

        if word not in stopwords:

            if word != '\t':

                outstr += word

                outstr += " "

    return outstr

inputs = open('E:/comments/P30去重.txt', 'r', encoding='utf-8')

outputs = open('E:/comments/P30分词.txt', 'w')

for line in inputs:

line_seg = seg_sentence(line)  #这里的返回值是字符串

    outputs.write(line_seg + '\n')

outputs.close()

inputs.close()

print('分词完毕')

数据分析

上面我们已经通过去重和jieba分词将爬取的内容进行了预处理,接下来就开始对处理过的数据进行分析,包括词频统计、关键词提取以及词云的生成等

#词频统计

import jieba.analyse

from collections import Counter  #词频统计

with open('E:/comments/P30分词.txt', 'r', encoding='utf-8') as fr:

    data = jieba.cut(fr.read())

data = dict(Counter(data))

with open('E:/comments/P30词频.txt', 'w', encoding='utf-8') as fw:  # 读入存储wordcount的文件路径

    for k, v in data.items():

        fw.write('%s, %d\n' % (k, v))

import jieba.analyse

import matplotlib.pyplot as plt

from wordcloud import WordCloud

#生成词云

with open('E:/comments/P30词频.txt') as f:

#提取关键词

    data = f.read()

    keyword = jieba.analyse.extract_tags(data, topK=50, withWeight=False)

    wl = " ".join(keyword)

#设置词云

    wc = WordCloud(

#设置背景颜色

        background_color = "white",

#设置最大显示的词云数

        max_words=2000,

#这种字体都在电脑字体中,一般路径

        font_path='C:/Windows/Fonts/simfang.ttf',

        height=1200,

        width=1600,

#设置字体最大值

        max_font_size=100,

#设置有多少种随机生成状态,即有多少种配色方案

        random_state=30,

    )

myword = wc.generate(wl)  #生成词云

#展示词云图

    plt.imshow(myword)

    plt.axis("off")

    plt.show()

wc.to_file('E:/comments/P30.png')  #把词云保存下

首先是准备工作,导入需要使用的库,读取并创建数据表取名为loandata。

?

1

2

3

import numpy as np

import pandas as pd

loandata=pd.DataFrame(pd.read_excel('loan_data.xlsx'))

设置索引字段

在开始提取数据前,先将member_id列设置为索引字段。然后开始提取数据。

?

1

Loandata = loandata.set_index('member_id')

按行提取信息

第一步是按行提取数据,例如提取某个用户的信息。下面使用ix函数对member_id为1303503的用户信息进行了提取。

?

1

loandata.ix[1303503]

按列提取信息

第二步是按列提取数据,例如提取用户工作年限列的所有信息,下面是具体的代码和提取结果,显示了所有用户的工作年龄信息。

?

1

loandata.ix[:,'emp_length']

按行与列提取信息

第三步是按行和列提取信息,把前面两部的查询条件放在一起,查询特定用户的特定信息,下面是查询member_id为1303503的用户的emp_length信息。

?

1

loandata.ix[1303503,'emp_length']

在前面的基础上继续增加条件,增加一行同时查询两个特定用户的贷款金额信息。具体代码和查询结果如下。结果中分别列出了两个用户的代码金额。

?

1

loandata.ix[[1303503,1298717],'loan_amnt']

在前面的代码后增加sum函数,对结果进行求和,同样是查询两个特定用户的贷款进行,下面的结果中直接给出了贷款金额的汇总值。

?

1

loandata.ix[[1303503,1298717],'loan_amnt'].sum()

除了增加行的查询条件以外,还可以增加列的查询条件,下面的代码中查询了一个特定用户的贷款金额和年收入情况,结果中分别显示了这两个字段的结果。

?

1

loandata.ix[1303503,['loan_amnt','annual_inc']]

多个列的查询也可以进行求和计算,在前面的代码后增加sum函数,对这个用户的贷款金额和年收入两个字段求和,并显示出结果。

?

1

loandata.ix[1303503,['loan_amnt','annual_inc']].sum()