词嵌入做为一种词向量模型,可以从文本中计算出隐含的上下文情景信息,态度及偏见。通过词向量距离的测算,就可以间接测得不同群体对某概念(组织、群体、品牌、地域等)的态度偏见。偏见(刻板印象)的介绍有
大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用
计算机科学家,正研究如何在AI中减弱甚至剔除刻板印象;但在社会科学领域,接受已有数据中存在的刻板印象,在数据中测量Bias,发现Bias,应用Bias,也能更好的认识和改造社会 。今天介绍一个挺好玩的工具WordBias。
WordBias
WordBias:一种用于发现词嵌入偏见(刻板印象)的交互式可视化工具, 旨在探索子群体(intersectional groups,直译为交叉群体)(如黑人女性、黑人穆斯林男性等)在词嵌入中的编码偏见。 我们的工具认为一个词与一个交叉组相关联,例如“Christian Males”,如果它与它的每个构成子集(Christians 和 Males)密切相关。 我们的工具旨在为专家提供有效的审核工具,为非专家提供教育工具,并增强领域专家的可访问性。
例如对“黑人男性”的刻板印象,是由“男人”和“黑人”两类刻板印象加上一些其他线索组成的。
所以这里intersectional groups,直译为交叉群体, 感觉不太好理解, 我把intersectional groups理解为群体中的子群体。个人理解,不一定合理,欢迎留言。
安装
-
命令行切换至WordBias文件夹,安装依赖包
cd Path_of_WordBias_Directory pip3 install -r req.txt
-
运行WordBias,命令行执行
python3 app.py
-
在浏览器中打开打开链接
https://localhost:6999
浏览器中会出现界面,如下图
界面
上图为WordBias的可视化界面。 图片可以分为3部分:
(A) 控制面板提供选择要投影到平行坐标图上的单词的选项
(B) 主视图显示所选单词(蓝线)沿不同偏见类型(轴)的偏差分数
(C) 搜索面板使用户能够搜索单词并显示搜索/刷新结果。
案例1-极端主义
在上图A位置选择恐怖主义类别词Extremism
在图中B位置,可以看到这些负面词在不同维度上存在不同的偏见。
- 性别: 这类词主要倾向于男性
- 地区: 这类词倾向于伊斯兰地区
- 年龄: 这类词倾向于年轻人
- 经济: 这类词倾向于贫穷
这表明 Word2vec 嵌入包含对穆斯林地区的贫困男性存在偏见。
案例2-pretty/beautifull
根据WordBias,描述女性美丽,可能不同的词使用范围不太一样。
在年龄维度,pretty更适合描述小女生,而beautifull适合成熟女性。
岁月从不败美人,说的就是beautifull woman吧。
论文
使用到wordbias,请注明出处
@inproceedings{ghai2021wordbias,
title={WordBias: An Interactive Visual Tool for Discovering Intersectional Biases Encoded in Word Embeddings},
author={Ghai, Bhavya and Hoque, Md Naimul and Mueller, Klaus},
booktitle={Extended Abstracts of the 2021 CHI Conference on Human Factors in Computing Systems},
pages={1--7},
year={2021}
}
基于训练好的词嵌入模型,WordBias计算每个词与性别、宗教等不同社会分类(类别词典)的偏见分数(关联系数),研究者定义了多个类别,如子类别,
类 | 子类 | 词表 |
---|---|---|
Gender | Male | he, son, his, him, father, man, boy, himself, male, brother, sons, fathers, men, boys, males, brothers, uncle, uncles, nephew, nephews |
Gender | Femal | she, daughter, hers, her, mother, woman, girl, herself, female, sister, daughters, mothers, women, girls, sisters, aunt, aunts, niece, nieces |
Age | Young | Taylor, Jamie, Daniel, Aubrey, Alison, Miranda, Jacob, Arthur, Aaron, Ethan |
Age | Old | Ruth, William, Horace, Mary, Susie, Amy, John, Henry, Edward, Elizabeth |
Religion | Islam | allah, ramadan, turban, emir, salaam, sunni, koran, imam, sultan, prophet, veil, ayatollah, shiite, mosque, islam, sheik, muslim, muhammad |
Religion | Christainity | baptism, messiah, catholicism, resurrection, christianity, salvation, protestant, gospel, trinity, jesus, christ, christian, cross, catholic, church |
Race | Black | black, blacks, Black, Blacks, African, african, Afro |
Race | White | white, whites, White, Whites, Caucasian, caucasian, European, european, Anglo |
Economic | Rich | rich, richer, richest, affluence, advantaged, wealthy, costly, exorbitant, expensive, exquisite, extravagant, flush, invaluable, lavish, luxuriant, luxurious, luxury, moneyed, opulent, plush, precious, priceless, privileged, prosperous, classy |
Economic | Poor | poor, poorer, poorest, poverty, destitude, needy, impoverished, economical, inexpensive, ruined, cheap, penurious, underprivileged, penniless, valueless, penury, indigence, bankrupt, beggarly, moneyless, insolvent |
其中偏见分数使用了Relative Norm Difference算法。设向量g1、g2分别表示一个类别中的两个子群体(如黑人,g1黑女 g2黑男) ,给定一个词w, 分别计算w与g1、g2的距离。如果不等距,则表示存在刻板印象,距离差值越大,偏见得分(BiasScore)越深。
$$𝐵𝑖𝑎𝑠S𝑐𝑜𝑟𝑒(𝑤) = 𝑐𝑜𝑠𝑖𝑛𝑒D𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑤, 𝑔1) − 𝑐𝑜𝑠𝑖𝑛𝑒D𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑤, 𝑔2) $$
然后使用新颖的交互式界面将它们可视化。