tomotopy | 速度最快的LDA主题模型

接近C的速度,比市面的sklearn、gensim快十几倍...

2023-04-25 · 5 min · 大邓

Nature | 通用中英文六维语义情感词典

来自心理学和认知神经科学的证据表明,人类大脑的语义系统包含几个特定的子系统,每个子系统都代表语义信息的特定维度。对这些不同语义维度上的词语评分可以帮助研究语义维度对语言处理的行为和神经影响,并根据人类认知系统的语义空间建立语言含义的计算表示。现有的语义评分数据库提供了数百到数千个词语的评分,但这无法支持对自然文本或语音的全面语义分析。本文报告了一个大型数据库——六维语义数据库(SSDD, 后文「数据库」均用「词典」代替),其中包含对 17,940个常用汉语词语在六个主要语义维度上的主观评分:视觉、运动、社交、情感、时间和空间。此外,使用计算模型学习主观评分和词嵌入之间的映射关系,我们在SSDD中包括了1,427,992个汉语和1,515,633个英语词语的估计语义评分。SSDD将有助于自然语言处理、文本分析和大脑中的语义表示研究。...

2023-03-20 · 1 min · 大邓

免费可用的chatGPT镜像站点清单

免费好用的ChatGPT镜像站

2023-03-16 · 1 min · xx025

借助chatGPT更高效地学习「Python实证指标构建与文本分析」

借助chatGPT更高效地学习「Python实证指标构建与文本分析」学一门含有Python语法、代码技术、科研应用三类内容的课程,如【Python实证指标构建文本分析】,掌握并内化最少必要知识量。明白原理,会把需求转化成问题,向chatGPT提问。如果把社科数据分析需求比作城堡, 我们需要掌握拆解成多个小积木的能力,之后每个小积木让chatGPT帮我实现。我们要做的是

2023-03-15 · 1 min · 大邓

词嵌入技术在社会科学领域进行数据挖掘常见39个FAQ汇总

Literally, **word embedding (Embeddings)** is the use of dense vectors to represent the semantics of a word. **Scholars have shown that by comparing the distance between these word vectors, we can understand how "humans" understand the meaning of words**. So, if we have a corpus comparing the distance between "taxes" and social groups ("conservatives", "socialists"), semantically, "taxes" should be farther away from "socialists", after all The money collected is for the service of the general public and has elements of socialism. In the word embedding space, word vectors contain rich information, such as analogies. Spain is to Madrid what Germany is to Berlin and France to Paris.字面上,**词嵌入(Embeddings)**是使用稠密向量表示一个词语的语义。**学者们已经表明,通过比较这些词向量之间的距离,我们可以了解“人类”如何理解单词的含义**。因此,如果我们有一个语料库,比较“税收” 与 社会团体(“保守派”、“社会主义者”) 之间的距离, 按照语义,“税收”应该距离 “社会主义者” 跟多一些,毕竟收上来的钱是为了社会大众服务,有社会主义的成分。在词嵌入空间中,词向量含有丰富的信息,例如可以做类比。西班牙之于马德里, 正如德国至于柏林、法国之于巴黎。"...

2023-03-15 · 2 min · 大邓