词嵌入技术在社会科学领域进行数据挖掘常见39个FAQ汇总

Literally, **word embedding (Embeddings)** is the use of dense vectors to represent the semantics of a word. **Scholars have shown that by comparing the distance between these word vectors, we can understand how "humans" understand the meaning of words**. So, if we have a corpus comparing the distance between "taxes" and social groups ("conservatives", "socialists"), semantically, "taxes" should be farther away from "socialists", after all The money collected is for the service of the general public and has elements of socialism. In the word embedding space, word vectors contain rich information, such as analogies. Spain is to Madrid what Germany is to Berlin and France to Paris.字面上,**词嵌入(Embeddings)**是使用稠密向量表示一个词语的语义。**学者们已经表明,通过比较这些词向量之间的距离,我们可以了解“人类”如何理解单词的含义**。因此,如果我们有一个语料库,比较“税收” 与 社会团体(“保守派”、“社会主义者”) 之间的距离, 按照语义,“税收”应该距离 “社会主义者” 跟多一些,毕竟收上来的钱是为了社会大众服务,有社会主义的成分。在词嵌入空间中,词向量含有丰富的信息,例如可以做类比。西班牙之于马德里, 正如德国至于柏林、法国之于巴黎。"...

2023-03-15 · 2 min · 大邓

可视化 | 词嵌入模型用于计算社科领域刻板印象等信息(含代码)

语言的文字反映了人类思想的结构,使我们能够在个人之间传递思想, 而使用大规模语料训练得来的词嵌入模型蕴含着这类信息。 英文的词嵌入在社会科学中的应用教程较多,大家可以谷歌查询,我主要想丰富中文数据的教程。The words of language reflect the structure of human thought, allowing us to transfer thoughts between individuals, and word embedding models trained using large-scale corpora contain this information. There are many application tutorials of English word embedding in social science. You can search it on Google. I mainly want to enrich the tutorials of Chinese data....

2023-03-03 · 5 min · 大邓

simpleT5 库 | 根据英文摘要内容生成标题

T5(Text-to-Text Transfer Transformer)是一种基于 Transformer 架构的自然语言处理模型,由 Google Brain 团队开发。T5 模型采用了 encoder-decoder 架构,其中 encoder 将输入文本编码为向量,decoder 则从该向量生成目标文本。T5 模型的特点是将所有自然语言处理任务都视为“从输入文本到输出文本”的转换问题,它可以通过在任务之间共享模型参数和预训练模型来轻松地应用于各种 NLP 任务,如**文本分类、命名实体识别、文本摘要、问答系统**等。 与其他 NLP 模型不同的是,T5 模型使用了一种称为“text-to-text”方法的统一输入输出架构,使得所有 NLP 任务都能转化为文本转换问题,从而使得模型训练更加高效。...

2023-02-23 · 4 min · 大邓

如何注册chatGPT账号

如何注册chatGPT,如何升级为PLUS用户

2023-02-14 · 1 min · 大邓

转载 | 大数据时代的「计算文化心理学」

随着大数据技术与文化心理学的融合发展, 计算文化心理学作为一门新兴交叉学科逐渐兴起, 大尺 度、近乎全样本的文化心理分析真正得以实现。计算文化心理学关注的文化变量主要围绕个人主义/集体主义 这一文化心理学使用最为广泛的维度展开, 分析方法包括特征词典、机器学习、社会网络分析、仿真模拟等, 分 析思路包括时间维度上的文化变迁效应以及空间维度上的文化地理效应。 当然, 计算文化心理学在为传统文 化心理研究提供新方法、新范式的同时, 也存在解码失真、样本偏差、词语多义性、隐私风险等局限, 未来研 究应重视变量理论解释、文化动态演化分析、学科深度整合、生态效度等问题。...

2023-02-13 · 3 min · 吴胜涛等