词向量 | 使用MD&A2001-2022语料训练Word2Vec模型

...

2023-03-24 · 6 min · 大邓

可视化 | 睡前消息的科学社会、科学技术、社会化抚养话题可视化

睡前消息是我最喜欢看的节目, 基本上隔两天不看睡不踏实。本次分享,不涉及观点之争,纯属技术玩乐。...

2023-03-22 · 2 min · 大邓

Nature | 通用中英文六维语义情感词典

来自心理学和认知神经科学的证据表明,人类大脑的语义系统包含几个特定的子系统,每个子系统都代表语义信息的特定维度。对这些不同语义维度上的词语评分可以帮助研究语义维度对语言处理的行为和神经影响,并根据人类认知系统的语义空间建立语言含义的计算表示。现有的语义评分数据库提供了数百到数千个词语的评分,但这无法支持对自然文本或语音的全面语义分析。本文报告了一个大型数据库——六维语义数据库(SSDD, 后文「数据库」均用「词典」代替),其中包含对 17,940个常用汉语词语在六个主要语义维度上的主观评分:视觉、运动、社交、情感、时间和空间。此外,使用计算模型学习主观评分和词嵌入之间的映射关系,我们在SSDD中包括了1,427,992个汉语和1,515,633个英语词语的估计语义评分。SSDD将有助于自然语言处理、文本分析和大脑中的语义表示研究。...

2023-03-20 · 1 min · 大邓

word_in_context | 查看某类词的上下文,更好的理解文本数据

通过一个单词所处的语境,我们可以了解该单词的含义。**该谚语源于英国语言学家 J.R. Firth 的理论,他认为单词的含义是由其周围的语境和与之相伴的其他单词所决定的,因此我们需要通过单词出现的上下文来理解其含义。这一理论在语言学、自然语言处理等领域有着广泛的应用。之前分享过 [ 使用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标」 ], 使用的是正则表达式识别融资约束文本。但是正则表达式设计十分复杂且有难度,在此之前,如果能够查看某些融资关键词附近上下文, 可帮助研究者更全面地了解数据集中关键词的使用情况和语境,更好的设计正则表达式,亦或许意外找出新的有价值的线索。...

2023-03-19 · 2 min · 大邓

采购合同数据集 | 政府采购何以牵动企业创新

中国地方政府采购合同数据是中国政府采购网中国政府购买服务信息平台披露的政府采购合同信息,主要囊括了采购人(甲方)、采购人所属行政区、供应商(乙方)以及合同金额等关键信息。数据自 2008-06-12 ~ 2021-02-03, 共有 648538 条 。如果某个政府采购合同的以上三项信息中包含关键词库内任意一个关键词,那么该合同就被认定为政府创新采购合同。...

2023-03-15 · 2 min · 大邓