[论文下载The predictive utility of word familiarity for online engagements and funding.pdf](The predictive utility of word familiarity for online engagements and funding.pdf)
Markowitz, D. M., & Shulman, H. C. (2021). The predictive utility of word familiarity for online engagements and funding. Proceedings of the National Academy of Sciences, 118(18).
摘要
处理流畅性等元认知框架通常表明人们对简单和通用的语言的反应比复杂和技术语言更有利。与复杂的信息相比,人们更容易处理简单和非技术性的信息,因此会更多地与目标进行互动。在涵盖 12 个现场样本(总 n = 1,064,533)的两项研究中,我们通过展示人们在付出时间和注意力时更多地使用非技术语言(例如,简单的在线语言往往会获得更多社交信息)来建立并复制这种越简单越好的现象订婚)。然而,人们在捐款时会对复杂的语言做出反应(例如,慈善捐赠活动和赠款摘要中的复杂语言往往会收到更多的钱)。这一证据表明,人们根据时间或金钱目标以不同的方式使用复杂语言的启发式方法。这些结果强调语言是社会和心理过程的镜头,以及大规模测量文本模式的计算方法。
- processing fluency
- field studies
- automated text analysis
- common words
- jargon
## 研究背景-复杂词汇的负面效应
术语(jargon),是复杂的、技术的、专业的语言,与日常语言相比,加工难度更大、更不流畅。许多关于加工流畅度(processing fluency)的研究都发现了使用术语的负面结果: 由于术语会给予人们不熟悉、加工困难的感觉,从而导致其较难理解。使用术语来描述手术过程的医生可能导致病人关于健康风险的错误估计;阅读了关于一项技术的复杂描述的人们(与阅读简单描述的人们相比)对该技术的理解更差并高估其风险。因此,不常用的、技术性的词汇通常不被看好,因为人们对其不熟悉而感觉较难加工,并给人们带来理解上的挑战。
然而,对于复杂词汇的影响,以往研究基本基于实验室结果,效应的强度、健壮性、对真实行为的预测性等仍不清楚。此外,以往大多数关于加工流畅度(processing fluency)的研究都依赖于人们的主观判断,即通过询问被试对于简单或复杂文本的感受来判断效应的大小。该研究则弥补了这两点不足,将加工流畅度操作性定义为词法流畅度(lexical fluency,即所用的词汇为通用词汇还是复杂词汇),并考察复杂词汇对人们在真实世界中行为的影响。
工具性启发法
工具性启发法(instrumentality heuristic)认为,如果一个感觉很困难的经历是有助于达到特定目标的,人们会给予这个经历更高的评价。由此,如果工具性目标被激活,那么加工流畅性低的复杂文本,反而可能会被给予更高的评价。对此,该研究同时考察了复杂词汇对于线上参与度(社会参与度)和资金筹集的影响。
研究假设
- 假设一:没有工具性目标被激活时,人们更喜欢简单的语言,表现为更高的社会参与度
- 假设二:工具性目标被激活时,人们更喜欢复杂的语言,表现为更多的资金支持
实验结果支持这两个假设:通用词汇与更多的线上支持(高社会参与度)相关,复杂词汇则与更多的资金支持相关。
数据
研究一的数据包括:
-
来自左倾(纽约时报)、右倾(福克斯新闻)、中立(美联社)的新闻媒体的推特
-
随机选择来自上述三个组织的的记者/名人的个人推特
-
共和党政治家和特朗普手下的推特
-
Reddit文章标题
-
科学论文(来自PLoS One)的标题和、摘要
-
TED演讲标题、内容
研究二的数据包括:
- 三个慈善平台
a) Kickstarter,主要是关于对创意项目的投资
b) Indiegogo,主要是关于对创意项目和初创企业的投资
c) GoFundMe,时要是关于生活事件的筹募(医疗、事故等)
- NIH基金申请书的摘要
数据分析
自动文本分析工具:研究使用自动文本分析工具LIWC(Linguistic Inquiry and Word Count)来对文本进行分析。LIWC词典是一个经过专家和统计分析认证的工具,其包含了6400个代表“非正式、非专业”的英语单词。研究者把通用词汇的比例操作性定义为文本中LIWC词典中词汇的比例。
混合效应回归分析:使用混合效应回归分析的方法对数据进行分析。其中,回归模型中的控制变量主要有5类,分别是信息源(如新闻来源、演讲者、作者),时间(如年份、视频长度、发帖距今时间、发表时间),主题(如社会/政治等),金钱(如申请成功与否、货币类型)和投入程度(如出资人的数量、股份的数量)。
数据转换:
-
研究一中,由于发表时间更长的信息更可能有更高的线上参与度,因此计算中所有参与度指标均除以了数据提取日期与发表日期之间的时间距离(数据提取-发表日期)。此外,对于考察的社会参与度指标,均进行了log转换。下文(表XX)中的点赞率、转发率等,均指代经过了上述转换后的点赞数、转发数等。
-
对研究一参与度相关指标求和时(如推特点赞率与转发率之和),对各指标标准化后再求和。
-
研究二中的因变量(各数据集中的所得资金数额)亦均进行了log转换。