前几天刚刚分享了,

大数据时代下社会科学研究方法的拓展—基于词嵌入技术的文本分析的应用

人类在留下语言、文字的过程中,也留下了自己的偏见、态度等主观认知信息(偏见、态度)。词嵌入做为一种词向量模型,可以隐含上下文的情景信息,态度及偏见很容易保留在词向量的某些维度中。通过词向量距离的测算,就可以间接测得不同群体某概念(组织、群体、品牌、地域等)的态度偏见。

下面整理了几篇 集智俱乐部 分享过词嵌入解读文章, 部分含视频讲解。文章末尾还有更多词嵌入的最新文献,感兴趣的同学也可以收藏。

Tips

pnas的数据挖掘的论文,大多都含有数据及代码。这里有几个python库,可以可视化刻板印象


偏见

文化中的几何:词嵌入如何捕捉文化社会学的微妙关系

Kozlowski, A.C., Taddy, M. and Evans, J.A., 2019. The geometry of culture: Analyzing the meanings of class through word embeddings. American Sociological Review, 84(5), pp.905-949.

来自芝加哥大学和亚马逊的研究者,针对海量文本资料,将所有词向量分解为性别,阶级和种族三个维度,并通过将不同词向量在这三个维度上的投影来给出该词的性别、阶级和种族属性。本文是对这项工作的解读。

点击查看详细解读


故事的形态可预期其成功

Toubia, O., Berger, J. and Eliashberg, J., 2021. How quantifying the shape of stories predicts their success. Proceedings of the National Academy of Sciences, 118(26).

通过NLP,分析了电影、电视剧及科研论文的叙事模式,与其成功之间的关系。发现不同类型的文章,由于大众的认知偏好,促成其成功的叙事模式是不同。作为计算社会学的一部分,该研究通过量化分析,确认了面对不同的叙事模式,存在普遍的认知偏好。

点击查看详细解读


童话里都是骗人的?用词向量解析故事中的性别偏见

  • Xu H, Zhang Z, Wu L, Wang C_J. The Cinderella Complex: Word Embeddings Quantify Gender Stereotypes in Movies and Books. Available from https://arxiv.org/abs/1811.04599. 2019.06.
  • Caliskan A, Bryson JJ, Narayanan A. Semantics derived automatically from language corpora contain human-like biases. Science. 2017;356: 183–186.
  • Garg N, Schiebinger L, Jurafsky D, Zou J. Word embeddings quantify 100 years of gender and ethnic stereotypes . Proceedings of the National Academy of Sciences. 2018. pp. E3635–E3644. doi:10.1073/pnas.1720347115
  • Dowling C. The Cinderella Complex: Women’s Hidden Fear of Independence. 1982.

“男人是女人通往幸福的道路”——这种偏见是如何通过一个精心设计的故事创造出来的?灰姑娘式的叙事结构形成并强化了"灰姑娘情结",即女性对独立的恐惧和被他人照顾的无意识欲望。“灰姑娘情结"在不同时期和不同文化中广泛存在,这提醒研究我们有必要通过教育、政策和其他方面创造新的叙述方式来与之作斗争。

研究者提出了计算机化的框架分析,通过描绘故事的形状来测量性别刻板印象。词嵌入技术提供了一个强大的替代情感词典的方法,首先,研究团队构建一个“高兴——不高兴”的情感轴,然后计算余弦相似性来得到每一个词的情感得分。

点击查看详细解读


词向量带你洞悉美国性别与种族歧视的100年历史演变

性别歧视、种族歧视都是存在了上百年的社会现象,这些现象在不同历史时期有怎样的发展变化呢?发表在PNAS这篇论文中,研究者用词向量的方法研究大量文本数据,挖掘出美国近一百年文化刻板印象的演化。

Garg, N., Schiebinger, L., Jurafsky, D. and Zou, J., 2018. Word embeddings quantify 100 years of gender and ethnic stereotypes. Proceedings of the National Academy of Sciences, 115(16), pp.E3635-E3644.

详细解读请看 https://mp.weixin.qq.com/s/VroknX42MBdckptv4tELJg


利用向量表征挖掘知识的创造和组织

词向量是自然语言处理中的一项基础性技术,通过词语之间的共同出现网络,可以在低维空间表征词汇间的语义相关性。4月23日发表在 Science Advences 的论文,通过论文引用网络,结合神经网络为不同的学科的科研期刊构建了连续的向量化嵌入表征,从中可以了解新知是如何被创造和组织的。

Peng, H., Ke, Q., Budak, C., Romero, D.M. and Ahn, Y.Y., 2021. Neural embeddings of scholarly periodicals reveal complex disciplinary organizations. Science Advances, 7(17), p.eabb9004.

点击查看详细解读


量化在线平台中的社会组织和政治两极分化

大量选择志同道合的人可能会分裂和极化网络社会,特别是在党派差异方面。 通过利用大规模的聚合行为模式来量化在线社区在社会维度上的定位。应用 14 年来在 Reddit 上 10,000 个社区中发表的 51 亿条评论,我们衡量了宏观社区结构在年龄、性别和美国政治党派方面的组织方式。

检查政治内容,我们发现 Reddit 在 2016 年美国总统大选前后经历了一次重大的两极分化事件。然而,与传统观念相反,个人层面的两极分化是罕见的。 2016 年的系统级转变主要是由新用户的到来推动的。 Reddit 上的政治两极分化与平台上的先前活动无关,而是在时间上与外部事件保持一致。

研究还观察到明显的意识形态不对称,2016 年两极分化的急剧增加完全归因于右翼活动的变化。这种方法广泛适用于在线互动的研究,我们的研究结果对在线平台的设计、理解在线行为的社会背景以及量化在线两极分化的动态和机制具有重要意义。

Waller, I. and Anderson, A., 2021. Quantifying social organization and political polarization in online platforms. Nature, 600(7888), pp.264-268. 点击查看详细解读



更多文献

  • Arseniev-Koehler, A., Cochran, S.D., Mays, V.M., Chang, K.W. and Foster, J.G., 2022. Integrating topic modeling and word embedding to characterize violent deaths. Proceedings of the National Academy of Sciences, 119(10), p.e2108801119.
  • Bollen, J., Ten Thij, M., Breithaupt, F., Barron, A.T., Rutter, L.A., Lorenzo-Luaces, L. and Scheffer, M., 2021. Historical language records reveal a surge of cognitive distortions in recent decades. Proceedings of the National Academy of Sciences, 118(30).
  • Kim, L., Smith, D.S., Hofstra, B. and McFarland, D.A., 2022. Gendered knowledge in fields and academic careers. Research Policy, 51(1), p.104411.
  • Lawson, M.A., Martin, A.E., Huda, I. and Matz, S.C., 2022. Hiring women into senior leadership positions is associated with a reduction in gender stereotypes in organizational language. Proceedings of the National Academy of Sciences, 119(9), p.e2026443119.
  • Brady, W.J., McLoughlin, K., Doan, T.N. and Crockett, M.J., 2021. How social learning amplifies moral outrage expression in online social networks. Science Advances, 7(33), p.eabe5641.
  • Bailey, A.H., Williams, A. and Cimpian, A., 2022. Based on billions of words on the internet, people= men. Science Advances, 8(13), p.eabm2463.
  • Lewis, M. and Lupyan, G., 2020. Gender stereotypes are reflected in the distributional structure of 25 languages. Nature human behaviour, 4(10), pp.1021-1028.
  • Schramowski, P., Turan, C., Andersen, N., Rothkopf, C.A. and Kersting, K., 2022. Large pre-trained language models contain human-like biases of what is right and wrong to do. Nature Machine Intelligence, 4(3), pp.258-268.
  • Costa-jussà, M.R., 2019. An analysis of gender bias studies in natural language processing. Nature Machine Intelligence, 1(11), pp.495-496.
  • Rodman, E., 2020. A timely intervention: Tracking the changing meanings of political concepts with word vectors. Political Analysis, 28(1), pp.87-111.
  • Bhatia, S., 2017. Associative judgment and vector space semantics. Psychological review, 124(1), p.1.
  • Kurdi, B., Mann, T.C., Charlesworth, T.E. and Banaji, M.R., 2019. The relationship between implicit intergroup attitudes and beliefs. Proceedings of the National Academy of Sciences, 116(13), pp.5862-5871.
  • Charlesworth, T.E., Yang, V., Mann, T.C., Kurdi, B. and Banaji, M.R., 2021. Gender stereotypes in natural language: Word embeddings show robust consistency across child and adult language corpora of more than 65 million words. Psychological Science, 32(2), pp.218-240.
  • Bhatia, S., 2019. Predicting risk perception: New insights from data science. Management Science, 65(8), pp.3800-3823.
  • Rheault, L. and Cochrane, C., 2020. Word embeddings for the analysis of ideological placement in parliamentary corpora. Political Analysis, 28(1), pp.112-133.
  • Yang, K., Lau, R.Y. and Abbasi, A., 2022. Getting Personal: A Deep Learning Artifact for Text-Based Measurement of Personality. Information Systems Research.
  • Rodman, E., 2020. A timely intervention: Tracking the changing meanings of political concepts with word vectors. Political Analysis, 28(1), pp.87-111.
  • Margulis, E.H., Wong, P.C., Turnbull, C., Kubit, B.M. and McAuley, J.D., 2022. Narratives imagined in response to instrumental music reveal culture-bounded intersubjectivity. Proceedings of the National Academy of Sciences, 119(4).
  • Thompson, B., Roberts, S.G. and Lupyan, G., 2020. Cultural influences on word meanings revealed through large-scale semantic alignment. Nature Human Behaviour, 4(10), pp.1029-1038.


广而告之