JCR2021一篇软件介绍,支持中英文在内的多种语言。
Hovy, D., Melumad, S. and Inman, J.J., 2021. Wordify: a tool for discovering and differentiating consumer vocabularies. Journal of Consumer Research, 48(3), pp.394-414.
摘要:
这项工作介绍了一个免费易用的在线文本分析工具Wordify,用于了解 “在不同上下文中,消费者的单词使用如何变化”。Wordify 使用 随机逻辑回归 (RLR) 来识别最能区分来自不同预分类文本的用词差异,例如男性与女性撰写的帖子用词差异,或好评与差评的用词差异。我们提供了说明性示例,以展示该工具如何用于多种用途,例如 (1) 揭示消费者在智能手机和 PC 上撰写评论时使用的独特词汇,(2) 发现推文中使用的词语在假定的支持者和反对有争议的广告,以及 (3) 扩展基于字典的情绪测量工具的字典。我们凭经验表明,Wordify 的 RLR 算法在区分词汇方面比支持向量机和卡方选择器表现更好,同时在计算时间上具有显着优势。还讨论了 Wordify 与其他文本分析工具的结合使用,例如概率主题建模和情感分析,以更深入地了解语言在消费者行为中的作用。
关键词:文本分析,自然语言处理,语言,情感分析
本地wordify配置
作者在github公开了wordify的代码,仓库地址 https://github.com/MilaNLProc/wordify-webapp-streamlit
大致的使用步骤
- wordify要配置spacy语言模型,配置方法参照以前分享的spacy产业级自然语言处理包
- 到github仓库下载代码,解压至桌面
- 打开命令行, 执行命令
cd desktop/wordify-webapp-streamlit-main
- 命令行执行
pip3 install -r requirements.txt
- 命令行执行
streamlit run app.py
, 此时命令行中出现本地服务地址(类似于网站),浏览器打开这个地址即可
本地配置比较有难度,建议使用在线版https://wordify.unibocconi.it/
在线展示网站
网址
https://wordify.unibocconi.it/
使用方法
-
表格文件需含两个字段名,分别为text和label, 中文数据需要先为用空格间隔词语的文本样式。中文样例文件
-
表格文件支持csv、xlsx、tsv、parquet,10M以内。数据上传成功后,页面会发生变化
-
在线页面在运行时一定不要刷新,这样会中断数据分析的过程
-
Wordify 的性能取决于文件中各个文本的长度。
点评
以往的文本分析思路,大多无视混杂效应Confound,主要从文本中抽取一些变量,如情感值,用于后期计量建模,试图挖掘文本指标(如情感值)与Outcome之间的因果关系。
混杂效应,例如研究推文正负面情感对网友点击行为的影响。
研究的机制可以简化为不同的文本情感–>产生不同的网友点击
但是有可能不全是情感影响了网友的点击,作者存在性别差异,女性比男性更容易表达积极文本信息,而且在互联网世界女性比男性可能更有吸引力。
论文中没提及Confound效应,但粗略浏览下,wordify创新地考虑了confound场景,通过文本分析,看看不同群体用词的差异。
wordify的缺点本地版配置太难,网页版运行太慢。0.6M的中文数据,我等了20min,还是没有跑出结果,果断关闭在线网页。总之感觉没有文中说的那么易用,门槛还是太高了。有耐心的朋友,如果感兴趣,可以去试试。
如果研究考虑文本的confound效应,可以参考causalnlp包,虽然配置难,但是运行速度还是有保证。