摘要
在过去的二十年里,可供营销研究人员分析的文本数据量呈指数级增长。 然而,书面语言充满了复杂的含义、歧义和细微差别。 营销研究人员如何才能将这种丰富的语言表示转化为可量化的数据以进行统计分析和建模? 本章介绍了文本分析各种方法。 在涵盖了文本分析的一些基础知识后,总结和探索了在营销研究中的应用,如情感分析、主题建模和研究组织沟通,包括对产品发布的口碑反应的案例研究。
本文相关资料
Christian Homburg, Martin Klarmann, and Arnd Vomberg. 2022. Handbook of Market Research.
关键词
-
文本分析Text analysis
-
计算机辅助文本分析computer-assisted text analysis
-
自动内容分析automated content analysis
-
内容分析content analysis
-
主题建模topic modeling
-
情感分析sentiment analysis
-
LDA主题分析LDA
-
口碑word-of-mouth
一、引言
要了解自动文本分析(后文均简称文本分析),首先要回顾一下它与传统内容分析的关系。内容分析是社会科学中用于系统地评估和分析消息内容的一种方法,通常以文本的形式,最早的内容分析传统可以追溯到 16 世纪的修道院生活,但现代内容分析是由 Max Weber (1924) 首次提出来研究新闻的。从那时起,社会学和传播学的学者就使用人类编码的内容分析来调查媒体内容的差异,描述传播随时间的趋势,揭示组织或个人关注的模式,并检查个人的态度、兴趣、意图或价值观或一组(例如,Berelson 1971;Gamson 和 Modigliani 1989)。
传统的内容分析首先通过 Kassarjian (1977) 的方法大纲引入消费者行为领域,然后由 Kolbe 和 Burnett (1991) 进行再创新,以提高可靠性和客观性,主要关注计算编码间一致性的标准(参见也格雷森和锈 2001)。在消费者研究和营销中,传统的内容分析已被用于分析杂志广告(Belk 和 Pollay 1985)、直邮direct mail(Stevenson 和 Swayne 1999)、报纸文章(Garrett 1987)和口碑传播(Moore 2015;菲尔普斯等人 2004)。虽然文本分析可以提高传统内容分析的效率和可靠性,但它也有局限性。例如,计算机化的文本分析可能会遗漏文本中的细微之处,并且无法编码更精细的含义。
文本分析并不是什么新鲜事,但自从个人计算机广泛采用以来,它已经变得更容易实现了。 General Inquirer (Stone 1966) 是最早用于消费者研究的计算机内容分析工具之一 (Kranz 1970)。 Kranz (1970) 对营销中内容分析涉及字典创建,但没有解决类别创建、有效性等。从那时起,在文本分析方面取得了长足的进步。
二、文本分析的方法
在当前实践中,自动化文本分析基本上有词典法、机器学习法(分类方法、主题模型)。
2.1 词典法
研究者测度文本中某些构念(概念)前,首先需要寻找到文本中存在的规律,通过构建单词列表或一组规则来完成(识别或)测量(Rayson 2009)。该方法已广泛用于社会科学,如消费者研究(Humphreys 和 Wang 2018)、心理学(Chung 和 Pennebaker 2013;Mehl 和 Gill 2008;Pennebaker 和 King 1999)、社会学(Van de Rijt 等人) . 2013) 和政治学 (Grimmer and Stewart 2013; Lasswell and Leites 1949),因为词典法能够将理论构念转化为可测度的文本元素,并且算法具有可靠的透明度(相比而言,机器学习算法更像是黑箱)。另一方面,自下而上的方法在工程、计算机科学和营销科学中得到了更广泛的应用。营销策略借鉴了这两种方法,尽管基于字典的方法似乎更常见(Ertimur 和 CoskunerBalli 2015;Humphreys 2010;Ludwig 等人 2013;Packard 等人 2014)。
基于字典的文本分析方法基于预先开发的单词列表或字典,用于计算文本中单词的出现次数。标准化词典可用于许多构造,例如情绪(例如,Hutto 和 Gilbert 2014)、与营销相关的构造,例如真实性和品牌个性(Kovács 等人 2013;Opoku 等人 2006),以及心理学中的许多标准概念(Pennebaker et al. 2001; Snefjella and Kuperman 2015) 和其他领域,如政治学 (Dunphy et al. 1974; Stone 1966)。除了使用标准字典外,许多研究人员选择创建自己的字典以适应特定的上下文,尽管只有在标准字典不可用时才应该这样做。
字典创建最归纳的方法是根据研究问题和假设的相关类别,先从文档中按频率列出的所有单词和词组(Chung and Pennebaker 2013)。如果研究人员事先不知道哪些类别是相关的,则可以使用在词典开发之前,使用定性研究方法,编码过程中创建一组相关概念及对应的单词列表,(Humphreys 2010)。例如,为了研究报纸文章中与瑜伽行业有关的制度逻辑,Ertimur 和Coskuner-Balli (2015) 首先主轴编码了报纸文章和其他历史文本的数据集。通常,数据集中随机选取10-20% 的样本足以进行编码(Humphreys 和 Wang 2018),但研究人员应注意数据量,根据类别或时间段的不均匀性,相应地进行分层处理(Humphreys 2010)。
字典创建的最演绎方法是从理论概念或类别创建一个词表。然而,应该注意研究人员和作家倾向于选择比文本数据中普遍存在的更抽象的词(Palmquist 等人,2009 年)。出于这个原因,仔细的后测验证是必要的,以确保词典结构的有效性。在清理和存储文本并创建字典后,研究人员使用 Python、Diction、LIWC、WordStat 或 R 等程序来执行计数。然后可以使用传统的统计包保存和分析数据。
词典构建过程中,如果要进行后测验证,有很多方法检验方法。
- 彭内贝克等人 (2001) 推荐了一种验证字典的方法,但不推荐结果测量。在这里,三个研究助理将一个词视为该类别的代表或不代表,如果三个编码员中有两个同意,则保留该词。如果他们不这样做,则应从字典中删除该词。然后可以计算和报告字典类别的百分比协议,一般阈值与 Krippendorf 的 alpha 相似,高于 75%。
- Weber (2005) 提出了一个饱和程序,研究人员从一个概念的 10 或 20 个实例中抽取样本,并让研究助理将它们编码为准确地代表类别(或不代表)。如果比率低于 80%,则应修改字典类别,直到达到阈值。
- 最后一种方法是将计算机编码的结果与来自两个或更多编码器的大量人工编码结果进行比较。为此,人们从数据集中选择一个随机样本(数量可能会因数据集的大小而异),然后人工编码人员根据类别描述对文本进行编码,并像在传统内容分析中一样计算可靠性。然后可以将其与计算机的附加“编码器”进行比较以产生相似度分数。尽管这种最终方法具有与传统内容分析比较的优势,但它并不总是必要的,并且在某些情况下会产生错误的结果。人类编码员能够理解计算机无法获得的微妙含义,同样,计算机能够一致且均匀地在整个数据集上对概念进行编码,而不会出现遗漏或偏见。出于这个原因,在某些情况下,将人类编码与计算机编码进行比较就像将苹果与橙子进行比较。
基于词典的分析已研究了很多领域的理论概念,例如情感emotion(Berger 和 Milkman 2012)、解释水平construal level(Snefjella 和 Kuperman 2015)、制度逻辑institutional logics(Ertimur 和 Coskuner-Balli 2015)、风险risk(Humphreys 和 Thompson 2014)、 言语行为speech acts(Ludwig et al. 2016; Villarroel Ordenes et al. 2017)和框架framing(Fiss and Hirsch 2005; Humphreys and Latour 2013; Jurafsky et al. 2014)。 可以通过基于词典的分析来探索各种上下文,例如产品和餐厅评论(Barasch 和 Berger 2014,Jurafsky 等人 2014;Kovács 等人 2013)、推文(Mogilner 等人 2010)、客户服务电话 (Packard et al. 2014)、博客 (Arsel and Bean 2013) 和新闻文章 (Humphreys 2010; Humphreys and Thompson 2014)。
2.3 机器学习法
机器学习法又细分为分类算法和主题建模。
2.3.1 分类方法
分类方法基于将文档分类为不同的“类型”,然后进一步描述(计算)文本中哪些元素为该条文本数据的成为某“类型”贡献了多少权重(可能性)。例如,Tirunillai 和 Tellis (2012) 使用分类来训练一个机器模型,以根据星级来识别正面和负面评论。研究者对训练数据集,使用朴素贝叶斯和支持向量机 (SVM) 分类器来找出哪些词可以预测星级,然后使用这些信息对整个评论集进行分类,达到精确度——这意味着他们的算法预测真阳性——68-85% 的时间,取决于产品类别。 Villarroel Ordenes 等人(2017 年)通过使用文本中显式和隐式情绪指标来衡量情绪和情绪强度,进一步完善情绪测量,还在 Tripadvisor、亚马逊和 Barnes and Noble 的一组星级评论上测试了他们的框架。分类模型算法的复杂程度各不相同;例如,这些方法的情绪准确性从 55% 到 96% 不等(Hutto and Gilbert 2014)。
分类模型已被用于研究评论 (Tirunillai and Tellis 2012; Van Laer et al. 2017)、在线论坛 (Homburg et al. 2015)、电子邮件 (Ludwig et al. 2016) 和文学文本 (Boyd and Pennebaker 2015b; Plaisant 等人,2006 年)。例如,为了衡量留言板帖子的情绪,Homburg 等人(2015)对明确的正面和负面帖子的训练数据集进行分类。然后,他们使用情绪作为一个独立的衡量标准来了解公司参与实际上增加了多少积极的消费者情绪,发现参与的回报是递减的。
2.3.2 主题建模
主题建模是一种方法,它首先将文本解析为离散的单词,然后假设单词出现是独立的情况下找到在统计上不太可能出现的共现模式(看不懂没关系,继续阅读)。通过这种方式,分析识别出可能由明显存在的词潜在表示的类别,然后标记这些词组以表示数据中有意义的概念或特征,就像在因子分析中所做的那样。例如,在酒店评论研究中,Mankad 等人。 (2016) 使用潜在狄利克雷分配 (LDA) 来识别用户 TripAdvisor 评论中出现的五个主题,将便利设施、位置、交易、价值和体验确定为评论者提到的关键主题。潜在语义分析 (LSA)、k-means 聚类 (Lee and Bradlow 2011)、概率潜在语义分析 (PLSA) 和 LDA (Blei et al. 2003) 都是主题建模的方法,其中 LDA 是最新和最常见的方法主题建模的分析方法。
LDA 是一种分层贝叶斯模型,用于确定给定文档中存在的主题概率分布组合。 LDA主题建模前需要研究者设定主题的数量。假设主题的选择存在一定的概率分布,并且在该分布中选择表示该主题的词有一定的分布,LDA 会生成最终的主题列表(由该主题中的词列表表示)和给定主题在文档中的概率。尽管大多数方法都是基于单词或短语的,但 Büschken 和 Allenby (2016) 使用句子作为分析单位进行了 LDA 分析,并发现这产生的结果比基于单词的 LDA 更能预测评分。基于句子的模型假设句子中的所有单词都是同一主题的一部分,考虑到 Grice 的关系和方式准则(Grice 1975),这是合理的。 Büschken 和 Allenby (2016) 使用此模型从 Expedia 和 we8there.com 上的评论中识别意大利餐厅和酒店的主题。
LDA 已在广泛的应用中使用(Büschken 和 Allenby 2016;Tirunillai 和 Tellis 2014)。与词典法一样,后测验证,在这种情况下,使用保留样本或其他预测技术(例如,外部 DV)是非常可取的。机器只会读取字面意思,因此同音异义词和包括讽刺在内的其他口语可能会出现问题,因为它们是过于笼统和过于具体的词。此外,仔细清理和准备文本可以减少错误,因为有时可以在数据收集期间添加文本标记(例如,页眉、页脚等)。
三、文本分析的市场研究应用
3.1 情感分析
许多文本分析程序和从业者声称可以衡量情绪,但并不总是清楚这个关键指标的内涵。在讨论情感的文本分析之前,首先要讨论什么是情感、情感能体现文本中的什么信息。在大多数营销环境中,研究人员和从业者都对消费者对品牌、产品或服务的态度感兴趣。然而,态度是复杂的心理结构,不仅由情感组成,还包括认知信念和意图(Fishbein 和 Ajzen 1972)。此外,对于任何给定产品的最终购买态度和未来行为(如忠诚度)的重要性在很大程度上取决于上下文和参与(Petty 和 Cacioppo 1979)。人们在网上表达的态度可能并不能完全反映他们的潜在态度,他们选择表达的态度可能存在选择偏差,并且他们的行为也可能与他们所支持的态度不同。尽管如此,以情感表达的在线话语可以反映对品牌、产品或服务的某种潜在态度,并且重要的是可以影响其他消费者之间共享的社会共识。情绪已被证明可以预测电影销量(Krauss et al. 2008; Mestyán et al. 2013)和股票市场回报(Bollen et al. 2011; De Choudhury et al. 2008; Tirunillai and Tellis 2012)。
情感得分的计算方法
-
大多数方法试图将文本分类或测量为具有积极、消极或有时是中性的情绪
-
另一些方法将其转化为净情绪,从积极的词中减去消极词(例如,Ludwig et al. 2013; Homburg et al. 2015 )。
除了情感效价valence,情绪也可以有强度strength和确定性certainty。先前的研究使用了明确的、语义的情感指标以及隐含的、更实用的情感指标,如**言语行为speech acts(委托、断言和方向)**来成功测量情感强度(Villarroel Ordenes 等人,2017 年)。进一步研究表明,其他类型言语,如指示语 (Potts and Schwarz 2010) 和其他语用标记可以指示表达性内容,通常在产品评论中表达 (Constant et al. 2009)。
使用预先开发的标准化词典是衡量跨上下文情绪的最可靠方法之一,因为这些词汇表已经开发并在广泛的文本数据上进行了测试。例如,VADAR(一种英文情感词典)使用带有基于规则的方法的字典来测量情绪。具体来说,Hutto 和 Gilbert (2014) 使用了基于以前标准化词典(如 LIWC 和 General Inquirer)的词典组合,但随后还开发了五个规则,这些规则考虑了句法和语法来衡量强度。使用词典法衡量情绪产生的准确率从 55% 到 96% 不等,具体取决于上下文(Hutto 和 Gilbert 2014)。 例如,Tirunillai 和 Tellis (2012) 使用星级来创建情绪分类系统,准确率为 68-85%。
3.2 通过文本分析研究口碑
迄今为止,文本分析在营销研究中的主要用途是研究在线口碑传播。消费者总是通过人际交流来分享产品信息(Arndt 1967),这种交流已被证明比商业信息更有效(Brown 和 Reingen 1987;另见 Godes 和 Mayzlin 2004;Money 等人 1998)。然而,虽然口碑传播以前是通过面对面或电话进行的,但现在它可以在社交购物网站(Stephen 和 Toubia 2010)、社交媒体(Humphreys 2015)和第三方评论网站上看到并存档和平台。亚马逊上的产品评论、TripAdvisor 上的酒店评论和 Yelp 上的餐厅评论!都提供了营销见解,以更好地了解评级与销售额和股价之间的关系(Moe 和 Schweidel 2014;Schweidel 和 Moe 2014;Moe 和 Trusov 2011)。例如,Moe 和 Trusov (2011) 发现正面评论对销售有直接影响,但这种影响在某种程度上是短暂的,因为随着人们发布更多评分(即,帖子的社会动态导致评论变得相对更加负面)随着时间的推移)。此外,积极性可能因平台而异(Schweidel 和 Moe 2014;Villarroel Ordenes 等人 2017)。
在线口碑可以通过测量情感效价、评论数量和评分分布的方差来表示(Godes 和 Mayzlin 2004)。评论数量和评分方差与现有的建模测量相对兼容,因为评论数可以聚合,评分的方差可以通过开始评级或其他用户输入来测量。情感效价虽然部分由星标衡量,但最好用情感衡量,这需要文本分析作为一种方法,将语言描述的非结构化数据转换为可纳入定量模型的数据。应该指出的是,除了情感效价之外,还有广泛的语言属性和语义内容可以为营销研究提供有用的信息(Humphreys and Wang 2018)。例如,Kovács 等人。 (2013) 表明,如果评论者在评论中提及真实性,即使在控制餐厅质量的情况下,餐厅的评分也会更高。
情感在口碑传播中的作用是一个关键话题。在一项关于分享新闻文章的研究中,Berger 和 Milkman (2012) 发现积极情绪会增加病毒式传播,但文章中存在强烈的负面情绪(如愤怒或焦虑)也会增加病毒式传播。还通过使用代词的文本分析研究了发送者和言语上下文的影响。使用第一人称人称代词(“I”、“me”)的标准字典,Packard 和 Wooten(2013 年)发现,消费者通过口耳相传更多地自我提升,以表明对特定领域的了解。消费者也被证明通过在向大量观众广播时分享较少的负面情绪来进行自我展示,而不是对较小的观众进行窄播(Barasch 和 Berger 2014)。在像电影一样评估产品时,消费者在表达对品味的看法与对质量的看法时,更有可能使用指代自己的代词(Spiller 和 Belogolova 2016)。
3.3 创建公司(产品)定位图、主题发现
文本分析可用于为品牌、公司或产品创建定位图,并根据特定类别中的属性可视化市场结构。**借助k-means 聚类算法或LDA 主题建模算法,可按一定的潜在逻辑(属性、品牌),对文本中的常见词进行分组。**例如,为了从 Epinions.com 上的一组评论中创建相机市场结构的可视化,Lee 和 Bradlow (2011) 首先提取与特定属性(例如,电池寿命、照片质量)相关的短语,然后使用 k-means基于短语的相似性(计算为单词向量之间的余弦相似度)对短语进行聚类。分析发现消费者提到的和对消费者重要的属性存在差异,但在尺寸、设计和屏幕亮度等专家评论中却没有差异。同样,使用来自糖尿病论坛的文本数据,Netzer 等人。 (2012) 发现论坛上经常提到的几种副作用,但在 WebMD 之类的网站上却没有(例如,体重增加、肾脏问题)。
主题模型与心理学理论之间是兼容的,例如语义记忆中的传播激活(Collins and Loftus 1975)。例如,人们是在一定的语义记忆中谈论相关的品牌。受到该想法启发,Netzer 等人 (2012) 使用 Edmunds.com 的评论为汽车品牌制作感知地图,并将其与使用销售(调查)数据测度的品牌转换感知地图进行比较。在此过程中,他们发现基于文本分析的结果与基于销售或调查数据的结果之间存在一些显着差异。例如,根据销售数据,韩国品牌的汽车与日本品牌没有关联。但是,根据文本数据,这些品牌被归为一类。这表明,虽然文本分析可以捕捉认知关联,但这些关联不一定会转化为品牌转换等行为(表 1)。
文本分析方法 | 数据源 | 应用领域 | 算法 | 相关案例 |
---|---|---|---|---|
词典法 | 在线评论、论坛、新闻、公告、年报 | 情感(情绪)、心理(如解释水平)、品牌关注度、品牌价值、公司形象等 | 词频 | Humphreys (2010), Berger and Milkman (2012), Packard et al. (2018) |
分类法 | 在线评论、论坛、文献、推特、邮件 | 情感分析、欺诈识别、产品属性、市场结构 | 监督机器学习算法,如SVM、K近邻、朴素贝叶斯等 | Homburg et al. (2015), Van Laer et al. (2018), Tirunillai and Tellis (2012) |
主题模型 | 产品服务评论、在西安论坛 | 产品属性、定位图positioning、市场结构等 | LDA、K-means | Netzer et al. (2012), Lee and Bradlow (2006), Buschken and Allenby (2016) |
3.4 组织和公司环境的测量
最后,文本分析可用于通过分析股东报告、新闻稿和其他营销传播来衡量组织关注度。这些研究主要基于基于词典的分析,并且经常创建词典而不是使用标准化词典来适应行业或原始背景和研究问题。例如,学者们开发了字典来研究 企业社会责任语言随时间的变化,以揭示发展中国家的差异(Gandolfo et al. 2016)。在对年度报告的分析中,Lee 等人 (2004) 发现,披露负面信息时,如果倾向于向内寻找原因,这类公司一年后的股价较高,这表明将责任归咎于公司控制因素的组织似乎比那些不责任的组织更有控制力,因此投资者对负面事件的印象更佳。
企业环境也可以通过测量媒体,如报纸、杂志和贸易出版物来捕捉。例如,Humphreys (2010) 表明,制度和文化环境的变化使美国的赌场赌博业合法化。 Humphreys 和 Thompson(2014 年)研究了两次危机(埃克森和 BP 漏油)之后的风险认知环境,并发现媒体的叙述有助于遏制这些灾难之后的风险认知。 Ertimur 和 Coskuner-Balli(Ertimur 和 Coskuner-Balli 2015)追溯了瑜伽行业如何随着时间的推移而变化,形成了影响行业内品牌和定位的独特制度逻辑。
3.5 处理文本数据的问题
尽管文本为分析消费者想法和市场战略领域研究提供了一个窗口,但在分析文本时仍有几个问题需要考虑。语言很少(如果有的话)遵循正态分布模式(Zipf 1932)。例如,像“a”、“he”和“there”这样的功能词在正常使用中占所有语言的 40% 左右。名词和动词等常用词占另外 59%,这些常用词中通常只有一小部分与研究问题相关。文本数据通常是左偏的(很多零),文档通常包含不同数量的单词,并且感兴趣的单词通常太少或太频繁出现而无法进行有意义的比较。由于这些原因,在计算出词频之后,研究人员通常会在统计分析之前对数据进行转换。此外,由于数据的非正态分布,许多检验(如 ANOVA)不适合。
因此,文本信息几乎就是表示为文档中单词的百分比(例如,Ludwig et al. 2013),并且通常使用对数转换来解释偏度(Netzer et al. 2012),尽管使用了几种可能的转换(曼宁等人,2008 年)。 Tf-idf 是一种经常用于解释词频的度量,由整个数据集中单词的总体频率标准化(有关计算 tf*idf 的详细信息,请参阅 Salton 和 McGill 1983,以及伴随的转换选项)。
用于测量共现的传统方法(例如 Pearson 相关性),必然导致一个问题,即数据集中存在大量的零(Netzer 等人,2012 年)。对此,研究人员经常使用余弦相似度或 Jaccard 距离来比较单词和文档。通常需要使用多种方法来计算共现的一系列稳健性检查,以确保结果不仅仅由于不经常或过于频繁出现的单词而出现(Monroe et al. 2009; Netzer et al. 2012)。例如,如果像“he他”这样的词很常见,那么与“airbag安全气囊”这样的不常见词相比,它可能与更多的词同时出现。然而,“安全气囊”这个词可能比“他”这样的人称代词更能概念可诊断性(信息量更大,更特别)。因为数据不是正态分布的,所以统计检验,例如 Mann-Whitney 检验,检验排名的显着性而不是绝对数,可以替代 ANOVA。
四、扩展:专家和非专家之间,产品发布的口碑差异
本节介绍了一个文本分析案例,以词典法为例,将数据分析的过程分为六个阶段(转载自Humphreys and Wang (2018), Automated Text Analysis for Consumer Research, Journal of Consumer Research, 44(6), 1 (April), 1274–1306)。该案例研究消费者对 mp3 播放器/无线设备 Apple iTouch 产品发布的反应,在本文中只展示部分内容,展示从理论构念到文本分析大主要步骤。。
步骤 | 含义功能 |
---|---|
1.识别研究问题 | 确定主题,以及与之对应的几个问题 |
2. 数据采集 | 识别数据源; 在线数据库或新闻; 对已有非文本数据(书籍、刊物)的数字化; 网络爬虫; 访谈 |
3. 定义构(概)念 | 定性分析数据的子样本; 为每个构念创建一个词典(单词列表); 让编码人员检查和完善词典; 初步实施字典以检查误报和漏报 |
4. 构念测量(计算) | 对原始数据计算相关构念 ; 根据研究问题,运行相关计算: 所有单词的百分比; 时间段或类别中的单词百分比; 所有编码单词的百分比; 二进制(“属于某构念”或“不属于某构念”) |
5. 解读&分析 | 依文章、你那份对文本进行不同角度的分析; 通过不同角度进行比较; 对研究问题选择合适的统计方法: 方差分析ANOVA; 回归分析; 相关分析; |
6. 后测验证 | 提取子样本并由研究助理或研究人员编码,根据 Krippendorf 的 alpha 计算所构建的词典的优劣合格与否 |
Stage-1:提出研究问题
本研究提出了一个具体的问题:
- 在产品发布后,专家的反应与非专家的反应是否不同?
- 此外,随着产品的扩散,专家组与非专家组的口碑反应如何变化?
专家的口口相传对产品采纳特别有影响,因此了解他们的观点会随着时间的推移以及与非专家群体的比较而发生变化是很重要的。 本研究选择的背景,即 Apple iTouch 的发布,是一个很好的研究案例,因为产品类别和评估产品的标准在推出时都是模棱两可的。
Stage-2: 数据收集
数据来自两个网站
- Amazon.com 亚马逊是一个销售从书籍到玩具的所有商品的网站,拥有广泛的受众; 来自Amazon的消费者评论被用来反映非专家或混合消费者的反应
- CNET.com CNET 是一个专门用于技术的网站,并且可能拥有更专业的发帖人。来自CNET的用户评论被用来衡量专家的反应。
研究者收集了Amazon.com 和 CNET.com关于iTouch文本数据,采集的时间窗口从2007 年 9 月 5 日到 2009 年 11 月 6 日。“iPod Touch”的关键字搜索用于收集当时对该产品可用的所有客户评论的分析。对设备多个版本(第一代和第二代)的评论包括在分析中,并根据发布日期进行了细分。第一代 iPod Touch 于 2007 年 9 月 5 日发布,第二代于 2008 年 9 月 9 日发布。
字段包括评论者(或发帖人)评论日期、发帖人姓名、评分、发帖人位置以及评论本身的文本都存储为单独的变量。从亚马逊收集了大约 204 个帖子,从 CNET 收集了 269 个帖子,产生的样本量足够高,可以在组之间进行统计比较。
Stage-3: 定义构念
信息处理领域的研究表明专家处理信息的方式与新手不同(Alba and Hutchinson 1987)。一般来说,
- 专家们更多地从认知角度看待产品,评估产品属性而不是好处或用途(Maheswaran 和 Sternthal 1990;Maheswaran 等人 1996;Sujan 1985)。
- 新手只使用刻板印象信息,专家则使用属性信息和刻板印象线索(Maheswaran 1994)。
- 专家能够同化吸收适应信息的类别模糊性,这意味着专家能更快地适应新产品(Meyers-Levy 和 Tybout 1989)。
- 专家还倾向于以抽象的、更高的解释水平来进行判断(Hong and Sternthal 2010)。
根据之前的研究,可以提出几个工作假设。我们希望进行的战略比较是关于专家与非专家如何评估产品以及这是否会随着时间而改变。首先,人们可能会期望专家会使用更多的认知语言,并且他们会更严格地评估设备。
H1:专家会比新手使用更多的认知语言。
其次,人们还期望专家会关注设备的功能,但非专家会更多地关注设备的使用(Maheswaran et al. 1996)。
H2:专家会比非专家更多地讨论特征。
H3:非专家会比专家更多地讨论好处和用途。
第三,随着时间的推移,人们可能会预测专家将能够吸收模棱两可的产品功能(属性),而非专家则不会。因为专家可以更容易地处理模棱两可的类别信息,并且由于他们具有更高的解释水平,所以人们会预测他们比新手更喜欢这种模棱两可的产品,并且会学会吸收模棱两可的信息。例如,在这种情况下,设备的存储空间使其难以分类(手机与 mp3 播放器)。人们会期望专家会更快地理解这种模糊性,并且随着时间的推移,他们对这一特征的阐述会减少。
H4:随着时间的推移,专家将较少谈论模棱两可的属性(例如,存储空间),而非专家将继续讨论模棱两可的属性。
最后,先前的研究表明,这些关注点的差异,专家在功能上和非专家在利益方面的差异,会对产品评级产生不同的影响.也就是说,非专家的评级将取决于对娱乐等福利的评估,但专家评级将更多地受到特征的影响。
H5:评级将由非专家的利益驱动。
H6:评级将由专家的特征驱动。
这些只是在线口碑传播分析中可以探索的众多潜在假设中的一小部分。人们同样可以探索新技术的文化框架(Giesler 2008)或通过与博主进行产品评论来共同制作品牌传播(Kozinets 2010)。这里提出的问题——随着时间的推移,专家对新产品的反应是否与非专家不同? – 旨在说明使用自动文本分析可以做什么,而不是对专业知识的心理属性进行严格测试。
在这个说明性案例中, H1 到 H6 的关键构念是已知的:专家和非专家、认知表达、情感、产品特征、收益。有一些构念的测量——认知语言和情感语言——可以通过已有的LIWC词典(Pennebaker et al. 2001)获得。然而,剩下的构念,如产品的特征和收益是特定于上下文的,需要专门构建字典。此外,可能还有其他特征将专家与非专家区分开来。因此,本研究的文本分析,我们采用词典法进行构念的测量。
Stage-4: 构念测量
对于此分析,Pennebaker 等人开发的标准 LIWC 词典。 (2001) 除了自定义字典外还使用了。Table3 显示了标准化和自定义词典中使用的类别。标准词典包括诸如“我”之类的人称代词的类别,诸如形容词之类的词类,诸如积极和消极情绪之类的心理测量学预先测试的类别,以及诸如休闲leisure、家庭family和与朋友相关的语言之类的内容相关类别。
开发一个自定义词典来识别此处产品口碑数据的类别。研究人员不考虑不区分网站来源,从2个网站各选 10 条评论进行开放式编码。然后,从每个网站再选择 10 条评论并添加编码,直到达到饱和(Weber 2005)。总之,开发自定义词典所需的子样本是 60 条评论,每个网站有 30 条,约占所有评论的 11%。创建了十四个类别,每个类别平均包含六个单词。
这一步主要是构建与理论构念相适应的词典,通过不同构念的词表测量不同的构念。Table3中Category是不同的构念(Category),对应的词表是Words,通过Words词语出现次数就能计算(测量)文本中不同构念(Category)。
评论的定性分析显示,发帖者倾向于从功能或美学角度谈论产品。因此,为与特征(例如 GPS、相机、硬盘、电池)和美学(例如,锐利、干净、性感、时尚)相关的词创建了字典类别。发帖人还反复关注设备的容量、产品的成本,并报告了他们在使用产品时遇到的问题。为这些问题中的每一个都创建了类别。因为可能有一些研究人员对产品用途的兴趣,并且因为发帖人经常提到娱乐和工作相关用途,所以为每种用途创建了类别。包括“大”与“小”的类别是因为先前的社会学理论表明 iPod 的成功来自其提供的过剩产品——大屏幕、过剩容量等(Sennett 2006)。当提到竞争产品时,创建了两个类别来计算,无论是在 Apple 品牌内部还是外部。
字典类别由三位编码人员验证,他们建议包含和排除的单词。表 3 中可以找到每个字典类别的编码员之间的百分比一致性。alpha平均一致性为 90%。文本文件通过 LIWC 程序运行,首先使用标准字典,然后使用自定义字典。从三组数据创建了一个电子表格:(1) 直接从网站收集的评论数据(例如,发布日期、产品评级),(2) 标准字典的计算机结果, (3) 自定义词典计算结果。
例如测量评论文本的Social processes指标(词频),实现计算的代码写法有很多种,以下仅为其中一种(代码仅供参考)
#构建的自定义词典(词表)
socialProcessWords= ['mate', 'talk', 'they', 'child']
#待分析的某条评论文本
comment = 'Jim and Jam have a new iTouch.They talk the iTouch is wonderful.'
#构念测量方法(统计评论文本中自定义词典词语出现的总次数)
def calculate_SocialProcess(text):
num = 0
words = text.lower().split(' ')
for word in words:
if word in socialProcessWords:
num=num+1
return num
#返回运行结果
socialProcessIndex = calculate_SocialProcess(text=comment)
print("social process index is {}".format(socialProcessIndex))
Run
2
最后
对这篇案例感兴趣的童鞋可以直接阅读原文, 对**python网络爬虫文本分析**感兴趣的童鞋,也可点击课程介绍。
参考文献
Christian Homburg, Martin Klarmann, and Arnd Vomberg. 2022. Handbook of Market Research. Cham, Switzerland: Springer. https://search.ebscohost.com/login.aspx?direct=true&db=edsebk&AN=3112347&lang=zh-cn&site=eds-live.
Humphreys A. (2019) Automated Text Analysis. In: Homburg C., Klarmann M., Vomberg A. (eds) Handbook of Market Research. Springer, Cham. https://doi.org/10.1007/978-3-319-05542-8_26-1
Humphreys, Ashlee, and Rebecca Jen-Hui Wang. “Automated text analysis for consumer research.” Journal of Consumer Research 44.6 (2018): 1274-1306.