Wordify | 发现和区分消费者词汇的工具

JCR2021一篇软件介绍，支持中英文在内的多种语言。

Hovy, D., Melumad, S. and Inman, J.J., 2021. Wordify: a tool for discovering and differentiating consumer vocabularies. Journal of Consumer Research, 48(3), pp.394-414.

摘要:

这项工作介绍了一个免费易用的在线文本分析工具Wordify，用于了解 “在不同上下文中，消费者的单词使用如何变化”。Wordify 使用 随机逻辑回归 (RLR) 来识别最能区分来自不同预分类文本的用词差异，例如男性与女性撰写的帖子用词差异，或好评与差评的用词差异。我们提供了说明性示例，以展示该工具如何用于多种用途，例如 (1) 揭示消费者在智能手机和 PC 上撰写评论时使用的独特词汇，(2) 发现推文中使用的词语在假定的支持者和反对有争议的广告，以及 (3) 扩展基于字典的情绪测量工具的字典。我们凭经验表明，Wordify 的 RLR 算法在区分词汇方面比支持向量机和卡方选择器表现更好，同时在计算时间上具有显着优势。还讨论了 Wordify 与其他文本分析工具的结合使用，例如概率主题建模和情感分析，以更深入地了解语言在消费者行为中的作用。

关键词：文本分析，自然语言处理，语言，情感分析

本地wordify配置

作者在github公开了wordify的代码，仓库地址 https://github.com/MilaNLProc/wordify-webapp-streamlit

大致的使用步骤

wordify要配置spacy语言模型，配置方法参照以前分享的spacy产业级自然语言处理包
到github仓库下载代码，解压至桌面
打开命令行, 执行命令cd desktop/wordify-webapp-streamlit-main
命令行执行pip3 install -r requirements.txt
命令行执行streamlit run app.py，此时命令行中出现本地服务地址(类似于网站)，浏览器打开这个地址即可

本地配置比较有难度，建议使用在线版https://wordify.unibocconi.it/

在线展示网站

网址

https://wordify.unibocconi.it/

使用方法

表格文件需含两个字段名，分别为text和label, 中文数据需要先为用空格间隔词语的文本样式。中文样例文件
表格文件支持csv、xlsx、tsv、parquet，10M以内。数据上传成功后，页面会发生变化
在线页面在运行时一定不要刷新，这样会中断数据分析的过程
Wordify 的性能取决于文件中各个文本的长度。

点评

以往的文本分析思路，大多无视混杂效应Confound，主要从文本中抽取一些变量，如情感值，用于后期计量建模，试图挖掘文本指标(如情感值)与Outcome之间的因果关系。

混杂效应，例如研究推文正负面情感对网友点击行为的影响。

研究的机制可以简化为不同的文本情感–>产生不同的网友点击

但是有可能不全是情感影响了网友的点击，作者存在性别差异，女性比男性更容易表达积极文本信息，而且在互联网世界女性比男性可能更有吸引力。

论文中没提及Confound效应，但粗略浏览下，wordify创新地考虑了confound场景，通过文本分析，看看不同群体用词的差异。

wordify的缺点本地版配置太难，网页版运行太慢。0.6M的中文数据，我等了20min，还是没有跑出结果，果断关闭在线网页。总之感觉没有文中说的那么易用，门槛还是太高了。有耐心的朋友，如果感兴趣，可以去试试。

如果研究考虑文本的confound效应，可以参考causalnlp包，虽然配置难，但是运行速度还是有保证。

摘要:#

本地wordify配置#

在线展示网站#

网址#

使用方法#

点评#

摘要:

本地wordify配置

在线展示网站

网址

使用方法

点评