词嵌入做为一种词向量模型,可以从文本中计算出隐含的上下文情景信息,态度及偏见。通过词向量距离的测算,就可以间接测得不同群体对某概念(组织、群体、品牌、地域等)的态度偏见。偏见(刻板印象)的介绍有

大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用

计算机科学家,正研究如何在AI中减弱甚至剔除刻板印象;但在社会科学领域,接受已有数据中存在的刻板印象,在数据中测量Bias,发现Bias,应用Bias,也能更好的认识和改造社会 。今天介绍一个挺好玩的工具WordBias。


WordBias

WordBias:一种用于发现词嵌入偏见(刻板印象)的交互式可视化工具, 旨在探索子群体(intersectional groups,直译为交叉群体)(如黑人女性、黑人穆斯林男性等)在词嵌入中的编码偏见。 我们的工具认为一个词与一个交叉组相关联,例如“Christian Males”,如果它与它的每个构成子集(Christians 和 Males)密切相关。 我们的工具旨在为专家提供有效的审核工具,为非专家提供教育工具,并增强领域专家的可访问性

例如对“黑人男性”的刻板印象,是由“男人”和“黑人”两类刻板印象加上一些其他线索组成的。

所以这里intersectional groups,直译为交叉群体, 感觉不太好理解, 我把intersectional groups理解为群体中的子群体。个人理解,不一定合理,欢迎留言。


安装

  • 下载这个仓库

  • 命令行切换至WordBias文件夹,安装依赖包

    cd Path_of_WordBias_Directory
    pip3 install -r req.txt
    
  • 运行WordBias,命令行执行

    python3 app.py
    
  • 在浏览器中打开打开链接

    https://localhost:6999
    

浏览器中会出现界面,如下图


界面

上图为WordBias的可视化界面。 图片可以分为3部分:
(A) 控制面板提供选择要投影到平行坐标图上的单词的选项
(B) 主视图显示所选单词(蓝线)沿不同偏见类型(轴)的偏差分数
(C) 搜索面板使用户能够搜索单词并显示搜索/刷新结果。


案例1-极端主义

在上图A位置选择恐怖主义类别词Extremism

在图中B位置,可以看到这些负面词在不同维度上存在不同的偏见。

  • 性别: 这类词主要倾向于男性
  • 地区: 这类词倾向于伊斯兰地区
  • 年龄: 这类词倾向于年轻人
  • 经济: 这类词倾向于贫穷

这表明 Word2vec 嵌入包含对穆斯林地区的贫困男性存在偏见。


案例2-pretty/beautifull

根据WordBias,描述女性美丽,可能不同的词使用范围不太一样。

在年龄维度,pretty更适合描述小女生,而beautifull适合成熟女性。

岁月从不败美人,说的就是beautifull woman吧。


论文

使用到wordbias,请注明出处

@inproceedings{ghai2021wordbias,
  title={WordBias: An Interactive Visual Tool for Discovering Intersectional Biases Encoded in Word Embeddings},
  author={Ghai, Bhavya and Hoque, Md Naimul and Mueller, Klaus},
  booktitle={Extended Abstracts of the 2021 CHI Conference on Human Factors in Computing Systems},
  pages={1--7},
  year={2021}
}

基于训练好的词嵌入模型,WordBias计算每个词与性别、宗教等不同社会分类(类别词典)的偏见分数(关联系数),研究者定义了多个类别,如子类别,

子类 词表
Gender Male he, son, his, him, father, man, boy, himself, male, brother, sons, fathers, men, boys, males, brothers, uncle, uncles, nephew, nephews
Gender Femal she, daughter, hers, her, mother, woman, girl, herself, female, sister, daughters, mothers, women, girls, sisters, aunt, aunts, niece, nieces
Age Young Taylor, Jamie, Daniel, Aubrey, Alison, Miranda, Jacob, Arthur, Aaron, Ethan
Age Old Ruth, William, Horace, Mary, Susie, Amy, John, Henry, Edward, Elizabeth
Religion Islam allah, ramadan, turban, emir, salaam, sunni, koran, imam, sultan, prophet, veil, ayatollah, shiite, mosque, islam, sheik, muslim, muhammad
Religion Christainity baptism, messiah, catholicism, resurrection, christianity, salvation, protestant, gospel, trinity, jesus, christ, christian, cross, catholic, church
Race Black black, blacks, Black, Blacks, African, african, Afro
Race White white, whites, White, Whites, Caucasian, caucasian, European, european, Anglo
Economic Rich rich, richer, richest, affluence, advantaged, wealthy, costly, exorbitant, expensive, exquisite, extravagant, flush, invaluable, lavish, luxuriant, luxurious, luxury, moneyed, opulent, plush, precious, priceless, privileged, prosperous, classy
Economic Poor poor, poorer, poorest, poverty, destitude, needy, impoverished, economical, inexpensive, ruined, cheap, penurious, underprivileged, penniless, valueless, penury, indigence, bankrupt, beggarly, moneyless, insolvent

其中偏见分数使用了Relative Norm Difference算法。设向量g1、g2分别表示一个类别中的两个子群体(如黑人,g1黑女 g2黑男) ,给定一个词w, 分别计算w与g1、g2的距离。如果不等距,则表示存在刻板印象,距离差值越大,偏见得分(BiasScore)越深。

$$𝐵𝑖𝑎𝑠S𝑐𝑜𝑟𝑒(𝑤) = 𝑐𝑜𝑠𝑖𝑛𝑒D𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑤, 𝑔1) − 𝑐𝑜𝑠𝑖𝑛𝑒D𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑤, 𝑔2) $$


然后使用新颖的交互式界面将它们可视化。



广而告之