变量类型	变量名	变量	变量解释
自变量	评论发表时间	time	评论已经发表的时间（距数据最后一天）
商品总评论数	reviewtotal
商品销售排名	rank	认为评论数反映了销售量
因变量	评论有用性投票数	helpfulvotes	评论获得的有用性投票的总数

负二项回归模型

=1,2,3…..;

变量类型	变量名	变量	变量解释
自变量	评论者有用性	reviewer_use	评论获得的有用性投票的数/得到的总票数
是否为资深评论员	vine	0:否 1：是
购买是否打折	discount	0:否 1：是
评论长度	length	评论所含单词的数量
星级极差	rateGap	星级评分与平均星级差值的绝对值
情感指数	emotion_rating	评论文本的情感倾向性指数
因变量	评论有用性投票数	usefulNum	评论获得的有用性投票的总数

模型改进 ：修正星级

（1）星级评价是一种简单，易于操作的评价形式，但无法全面展示评论者的情感态度。例如：A觉得产品毫无瑕疵所以打了5星，B觉得产品有一点缺点，但总体满意还是打了5星。因此，我们在原有的评分系统上进行改进，依旧采用所有评论者评分均值的方法，但对每一条评论，使用评论情感指数修正星级评价，增加准确性。

自然语言处理NLP：主题LDA、情感分析疫情下的新闻文本数据

符号说明：

以微波炉的产品为例，将原来的产品总分与修正后的评分做对比：

发现，修正后的模型和原来的分数差距很小，只是将评价等级范围扩大。但可以很好的刻画评论者的评论极性和情感强度，能将极断的情绪放大，情感表达更强烈。同样修正模型也可以更加完整地展示评论者的态度。

（2）将产品综合情绪作为自变量，产品的评论总数作为独立变量，综合星级作为因变量，建立如下回归模型:

通过R语言进行回归，我们可以得到回归模型：

此外，rsqure为0.9901，很接近于1，说明回归效果很好。

将产品综合情绪作为自变量，产品的评论总数作为独立变量，综合星级作为因变量，建立如下回归模型:

通过R语言进行回归，我们可以得到回归模型：

此外，rsquare为0.9901，很接近于1，说明回归效果很好。

这种给产品打分的模式可以更好的刻画评论评价中蕴含的情绪，越准确的打分越能够了解产品在市场上的口碑以及产品的品质，从而使得顾客更直接获得对产品的感知，提高对购物网站的认同度。

模型二：网络口碑感知的动态内生模型

网络口碑量化指标的确定。在实际生活中，消费者对网络口碑感知是一个阶段的过程，是对一个时间段内产品的属性、质量、服务等的总和感知，因此，上诉分析的影响因素对网站口碑感知的印象是存在滞后性的，此时就产生了在线评论和网络口碑感知之间的动态均衡过程。

分析：

自变量：（与评论有关）

① 产品综合星级（）：是消费者对产品感受最直接的反应，认为星级越高，消费者对该产品的评价越好

② 在线评论的数量（cNum）：评论数越多，说明参与评论的人越多，也反应出产品销量高，消费者对该产品的关注多

③ 负面评价在线评价的比例 (nage)：负面评论是影响口碑的重要因素，并且负面评论降低产品销量比正面评论所带来的销量上升的效果更佳显著。

④ 综合情感指数（）：由评论文本分析得到的情感指数可以反映评论者对产品更全面的感知

控制变量：（与评论无关但可以度量的）

① 竞争者的数量（pnum），还包括降价幅度②产品发布时间(time)

哑变量：（与评论无关且不可度量的因素）

① 品牌效应（brand）：该产品资深评论者的星级评价平均值

模型

基于上述分析的结果，建立网络口碑感知与各变量之间的线性模型来进行估计，为了避免异方差及偏态性的影响，公式中的部分变量以自然对数表示：

为了证明在线评论对口碑感知的影响大小，构建两个模型进行对比：

当A=0，B=1, C=1，T=4时，得到模型一

当A=1，B=1，C=1，T=4时，得到模型二：

通过分析各变量对产品网络口碑感知的影响，为了防止出现多重共线性的问题，对相应的变量进行了中心化处理，处理之后，所有的方差膨胀因子VIF小于5，说明多重共线性问题被有效规避。

模型三：ARIMA时间序列预测模型

ARIMA模型是在ARMA模型的基础上加入了差分处理。模型公式：

ARMA表示时间序列，是干扰项与以及序列值的线性组合。AR的系数由模型中的表示，p表示自回归阶数，一般表示时序数据本身的滞后数；MA的系数由表示，q表示移动平均阶数，一般表示预测模型中采用的预测误差的滞后数。ARIMA(p,d,q)中d代表差分次数，为了使非平稳的序列变得相对平稳。

选取了亚马逊网站上三种商品（吹风机、奶嘴、微波炉）的评论数据分别进行分析。在数据预处理之后，以奶嘴为例，得到23764条数据，时间跨度为2003年4月到2015年8月，每款商品的总体销量范围在0~833之间，所以本文以月为单位划分时间进行模型构建与验证，并预测之后5个月的销量。

观察时序图，可以看出销量整体走势是呈上升趋势的，但不太平稳，有一定的波动性，所以进行一阶差分处理，符合ARIMA模型。

模型一：

采用微波炉所有产品的数据，其中有用性投票最小为0，最大是814，有用性投票的分布比较离散，约41.14%的有用性投票数为0，适用于我们建立的模型。结合回归分析结果与描述性统计结果进行分析。

变量	estimate	SE	Z	P 值
负二项	–
（ Intercept ）	-1.065e+00	6.182e-02	-17.223	<2e-16
reviewer_use	2.809e+00	5.950e-02	47.207	<2e-16
vine	4.029e-01	4.037e-02	9.981	<2e-16
discount	-1.134e-01	2.739e-02	-4.139	3.49e-05
review_length	3.212e-03	3.835e-05	83.746	<2e-16
emotion_rating	2.719e-01	1.634e-02	16.644	<2e-16
rate_gap	1.915e-01	1.387e-02	13.810	<2e-16
logistic
（ Intercept ）	-3.583279	1.436305	-2.495	0.012603
time	-0.006731	0.001543	-4.363	1.28e-05
rank	0.087540	0.051973	1.684	0.092115
review_total	0.012404	0.003479	3.565	0.000364