cntext2.x | 新增读取pdf/docx| 提取MD&A | 文本可视化等功能

...

2024-05-14 · 3 min · 大邓

豆瓣影评 | 探索词向量妙处

使用cntext训练、使用词向量。...

2024-04-21 · 4 min · 大邓

数据集 | 使用 1000w 条豆瓣影评训练 Word2Vec

...

2024-04-16 · 5 min · 大邓

word_in_context | 查看某类词的上下文,更好的理解文本数据

通过一个单词所处的语境,我们可以了解该单词的含义。**该谚语源于英国语言学家 J.R. Firth 的理论,他认为单词的含义是由其周围的语境和与之相伴的其他单词所决定的,因此我们需要通过单词出现的上下文来理解其含义。这一理论在语言学、自然语言处理等领域有着广泛的应用。之前分享过 [ 使用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标」 ], 使用的是正则表达式识别融资约束文本。但是正则表达式设计十分复杂且有难度,在此之前,如果能够查看某些融资关键词附近上下文, 可帮助研究者更全面地了解数据集中关键词的使用情况和语境,更好的设计正则表达式,亦或许意外找出新的有价值的线索。...

2023-03-19 · 2 min · 大邓