word_in_context | 查看某类词的上下文,更好的理解文本数据

通过一个单词所处的语境,我们可以了解该单词的含义。**该谚语源于英国语言学家 J.R. Firth 的理论,他认为单词的含义是由其周围的语境和与之相伴的其他单词所决定的,因此我们需要通过单词出现的上下文来理解其含义。这一理论在语言学、自然语言处理等领域有着广泛的应用。之前分享过 [ 使用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标」 ], 使用的是正则表达式识别融资约束文本。但是正则表达式设计十分复杂且有难度,在此之前,如果能够查看某些融资关键词附近上下文, 可帮助研究者更全面地了解数据集中关键词的使用情况和语境,更好的设计正则表达式,亦或许意外找出新的有价值的线索。...

2023-03-19 · 2 min · 大邓

免费可用的chatGPT镜像站点清单

免费好用的ChatGPT镜像站

2023-03-16 · 1 min · xx025

借助chatGPT更高效地学习「Python实证指标构建与文本分析」

借助chatGPT更高效地学习「Python实证指标构建与文本分析」学一门含有Python语法、代码技术、科研应用三类内容的课程,如【Python实证指标构建文本分析】,掌握并内化最少必要知识量。明白原理,会把需求转化成问题,向chatGPT提问。如果把社科数据分析需求比作城堡, 我们需要掌握拆解成多个小积木的能力,之后每个小积木让chatGPT帮我实现。我们要做的是

2023-03-15 · 1 min · 大邓

词嵌入技术在社会科学领域进行数据挖掘常见39个FAQ汇总

Literally, **word embedding (Embeddings)** is the use of dense vectors to represent the semantics of a word. **Scholars have shown that by comparing the distance between these word vectors, we can understand how "humans" understand the meaning of words**. So, if we have a corpus comparing the distance between "taxes" and social groups ("conservatives", "socialists"), semantically, "taxes" should be farther away from "socialists", after all The money collected is for the service of the general public and has elements of socialism. In the word embedding space, word vectors contain rich information, such as analogies. Spain is to Madrid what Germany is to Berlin and France to Paris.字面上,**词嵌入(Embeddings)**是使用稠密向量表示一个词语的语义。**学者们已经表明,通过比较这些词向量之间的距离,我们可以了解“人类”如何理解单词的含义**。因此,如果我们有一个语料库,比较“税收” 与 社会团体(“保守派”、“社会主义者”) 之间的距离, 按照语义,“税收”应该距离 “社会主义者” 跟多一些,毕竟收上来的钱是为了社会大众服务,有社会主义的成分。在词嵌入空间中,词向量含有丰富的信息,例如可以做类比。西班牙之于马德里, 正如德国至于柏林、法国之于巴黎。"...

2023-03-15 · 2 min · 大邓

采购合同数据集 | 政府采购何以牵动企业创新

中国地方政府采购合同数据是中国政府采购网中国政府购买服务信息平台披露的政府采购合同信息,主要囊括了采购人(甲方)、采购人所属行政区、供应商(乙方)以及合同金额等关键信息。数据自 2008-06-12 ~ 2021-02-03, 共有 648538 条 。如果某个政府采购合同的以上三项信息中包含关键词库内任意一个关键词,那么该合同就被认定为政府创新采购合同。...

2023-03-15 · 2 min · 大邓