电商平台用户评论数据情感分析

2021-10-29 10:47:15毕业论文访问手机版

摘要:以生鲜农产品苹果为研究对象，通过Python网络爬虫采集电商平台上的文本评论数据，对数据进行去重、清洗等基本的预处理操作后，进行用户情绪分类，并通过分词处理、词频统计、词云数据展示等方法对用户评论文本数据进行分析。通过LDA主题分析模型对评论数据进行主题分析，从而通过多方面的分析获取文本评论数据中有价值的内容，对产品的改进提出建议。

关键词:文本数据挖掘;LDA主题模型;用户评论;情感分析

1概述

随着科技的发展和人们综合素质的提高，越来越多的人选择网上购物，尤其是年轻人，大到汽车、家电，小到大米、蔬菜等农副产品。最近几年，生鲜类农产品成了电商发展的新方向，生鲜电商巨大的市场前景吸引了众多生鲜电商的积极入市，当前，苏宁、顺丰、京东、阿里巴巴等电商企业纷纷向这方面进军。这种网上生鲜电商的服务模式，得到了社会大众的青睐和认可。当前好多电商平台取消了对用户评论的分类，或者分类过于粗糙，缺乏指导价值，不利于商户和用户从大量的数据中提取有用信息。作为商品的经营者，面对激烈的市场竞争，除了提高产品质量、降低商品的价格、营销方式的变革之外，了解更多消费者的心声变得越来越重要，其中常用的方式就是对评论者的文本数据进行内在信息的数据挖掘分析，帮助企业和商家推出受市场欢迎的产品。同时对消费者而言，可以帮助消费者了解产品的优劣，帮助用户进行购买决策。本文从电商平台用户评论数据的获取、采集和分析3个方面分析了基于电商平台评论数据的用户情感分析的一般流程如图1所示。

2数据来源

经前期的市场调查，苹果在各种生鲜农产品中有着广泛的受众群体，营养价值高，老少皆宜，易于储存和运输，非常适合在网络上销售，无论自用还是送礼都有着巨大的消费量。因此本文选择京东商城生鲜农产品，以新鲜水果苹果为研究对象，对用户的评价进行情感分析。本文以当前销量排名第一的某品牌苹果阿克苏苹果为例，京东商城自营店将苹果产品的规格按果径大小分为75～80mm15粒，80～85mm15粒，85～90mm14粒，90～95mm12粒，95～100mm10粒，约100mm8粒6个级别，截至目前已经有累计69万+评论，其中好评28万+，中评3100+，差评2100+，数据量比较大，适合作电商用户情感分析。

3基于网络评价的农产品情感分析

3.1评论数据的采集

本文使用Python编写爬虫程序，从京东商城网站上采集某品牌苹果客户的评论数据。采集了用户编号、用户评分、评论内容、评论时间4个字段，并将采集到的数据保存MySQL数据库中，如图2所示。

3.2网络评论数据词云分析

对评论数据进行重复值处理、过滤短句等操作之后，将数据分别按好评、中评、差评存放在相应的文本文件中。其中评分大于3分的为好评，等于3分的为中评，小于3分的为差评。然后去除文本中的无用符号、过滤停用词，对文本进行jieba分词和词频统计。分别取好评和差评的前30个高频词用词云展示，如图3所示。实验结果显示，正面评价客户的评论主要是对产品质量和京东平台服务的肯定，评论点主要集中在口感、包装和物流;负面评价用户的评论主要集中在是否为真正的阿克苏苹果、有无冰糖心、口感、产品质量的稳定性，以及对京东平台客服的评价上。

3．3基于LDA模型的主题分析

3．3．1LDA模型介绍主题模型在机器学习和自然语言处理领域是用来在一系列文档中发现抽象主题的一种统计模型。潜在狄利克雷分配(LatentDirichletAllocation，LDA)是由Blei等人在2003年提出的生成式主题模型。生成模型，即认为每一篇文档的每一个词都是通过“一定的概率选择了某个主题，并从这个主题中以一定的概率选择了某个词语”。LDA模型也被称为3层贝叶斯概率模型，包含文档(d)、主题(z)和词(w)3层结构，能够有效地对文本进行建模，和传统的空间向量模型(VSM)相比，增加了概率的信息。通过LDA主题模型，能够挖掘数据集中的潜在主题，进而分析数据集的集中关注点及相关特征词。LDA模型假设每篇评论由各个主题按一定比例随机混合而成，混合比例服从多项分布，记为:Z|θ=Multionomial(θ)而每个主题由词汇表中的各个词语按一定比例混合而成，混合比例也服从多项分布，记为:W|Z，φ=Mulinomial(φ)在评论dj条件下生产词wi的概率表示为:P(wj|dj)=∑Ks=1P(wi|z=s)×P(z=s|dj)其中，P(wj|z=s)表示词wi表示属于第s个主题的概率，P(z=s|dj)表示第s个主题在评论dj中的概率。3．3．2LDA主题模型估计LDA模型对参数θ、φ的近似估计通常使用马尔科夫链蒙特卡洛(MarkovChainMonteCarlo，MCMC)算法中的一个特例Gibbs抽样。利用Gibbs抽样对LDA模型进行参数估计，依据下式:P(zi=s|Z－i，W)∝ns，－i(+β)i/∑Vi=1ns，－i(+β)i×ns，－j(+α)s其中，zi=s|标注词wi属于第s|个主题的概率，Z－i表示其他所有词的概率，ns，－i表示不包含当前词wi的被分配到当前主题zs下的个数，ns，－j表示不包含当前文档dj的被分配到当前主题zs下的个数。通过对上式的推导，可以推导得到词wi在主题zs中的分布参数估计φs，i，主题zs在评论dj中的多项分布的参数估计θj，s，如下:φs，i=ns，i(+β)/∑Vi=1ns，i(+β)iθj，s=nj，s(+α)s/∑Ks=1nj，s(+α)s其中，ns，i表示词wi在主题zs中出现的次数，nj，s表示文档dj中包含主题zs的个数。3．3．3运用LDA模型实现主题分析虽然LDA可以直接对文本作主题分析，但是为了避免正面评价和负面评价混淆在一起，并且由于分词粒度的影响(否定词或者程度词等)，从而可能在一个主题下产生一些令人迷惑的词语。因此本文将文本分为正面评价和负面评价2个文本，再分别进行LDA主题分析。根据采集数据时用户的评分，将评论分为正面情感结果和负面情感结果。如果评分大于3分为正面情感结果，小于3分则为负面情感结果。然后再分别对正面评价和负面评价文本进行jieba分词和过滤停用词，使用Python的Gensim库完成LDA主题分析。经LDA主题分析后，将评论文本聚类成3个主题，每个主题下生成10个最有可能出现的词语及其相应的概率。表1显示了某品牌苹果的正面评价文本中的潜在主题，表2显示了负面评价文本中的潜在主题。根据对某品牌阿克苏苹果好评的3个潜在主题的特征词提取，主题1的中高频词即某品牌、好吃、不错等，主要反映某品牌的苹果好吃，值得购买;主题2中的高频词京东、包装、好吃等，主要反映京东的运输和产品的质量;主题3中的高频词京东、好、不错、好吃等，主要反映了京东的服务和产品的质量。从对某品牌阿克苏苹果差评的3个潜在主题的特征词提取，主题1的中高频词即阿克苏、京东、冰糖心、失望等，主要反映的是对京东平台提供的这批产品的不满;主题2中的高频词阿克苏、糖心、京东、这次等，主要反映的是这一次购物的失望，跟以前的差距大;主题3中的高频词冰糖心、吃、口感、差等，主要反映了该阿克苏苹果口感差，与描述不符。综合以上主题及其中高频词的特征可以看出，某品牌阿克苏苹果的优势有以下几个方面:口感好吃、包装好、京东的服务好、值得购买。相对而言用户的抱怨主要是:品质不稳定，没有之前购买的好，在口感和大小上与描述的有差距。因此，用户的购买原因可以总结为以下几个方面:对某品牌和京东服务的信赖，对阿克苏苹果的口感和包装认可。根据对京东平台上某品牌阿克苏苹果用户评价情况进行LDA主题模型分析，笔者对某品牌提出如下建议。在保持产品良好的包装和性价比的基础上，稳定产品的质量，在农产品的分拣过程中严格把关，不能以小充大，以次充好，影响品牌在消费者心目中的形象。同时作为京东的自营商品，京东平台也要对销售商品负责，提供完善的售后服务，不能辜负了消费者的信任。

4结论与展望

本文完整地展示了电商平台下用户评论数据的采集和分析流程，经过对数据的清洗处理，采用词频统计和LDA主题分析模型，对用户的评论数据进行用户情感分析，以京东电商平台的生鲜农产品苹果为例，分析了客户对该产品的评价，并给出销售建议。由于条件限制，本次实验数据采集量有限，文本主题聚类效果不是很理想，今后可以通过加大采集数据量，对模型进一步优化，提升实验效果，并应用于其他产品和服务的分析。

参考文献:

［1］杜慧，陈云芳，张伟．主题模型中的参数估计方法综述［J］．计算机科学，2017，44(S1):29－32+47．

［2］BleiDM，NgAY，JordanMI．LatentDirichletallocation［J］．JournalofMachineLearningＲesearch，2003(3):2003．

［3］GaoJuan，XiaTian，LiJinTao，Adensitymethodforadap-tiveLDAmodelselection［J］．Neurocomputing2009(72):1775－1781．

［4］郭立秀，基于文本挖掘的生鲜电商顾客满意度研究［D］．西安:西安交通大学，2020．

［5］陈俊宇，基于文本挖掘的在线评论应用研究［D］．武汉:湖北工业大学，2020．

［6］程翔，基于商品评论的情感分析的研究与应用［D］．北京:北京工业大学，2020．

作者：蒋丽华沈金羽任怡单位：苏州农业职业技术学院

热点阅读