数据集 | 大邓和他的PYTHON

word_in_context | 查看某类词的上下文，更好的理解文本数据

通过一个单词所处的语境，我们可以了解该单词的含义。**该谚语源于英国语言学家 J.R. Firth 的理论，他认为单词的含义是由其周围的语境和与之相伴的其他单词所决定的，因此我们需要通过单词出现的上下文来理解其含义。这一理论在语言学、自然语言处理等领域有着广泛的应用。之前分享过 [ 使用正则表达式、文本向量化、线性回归算法从md&a数据中计算「企业融资约束指标」 ]，使用的是正则表达式识别融资约束文本。但是正则表达式设计十分复杂且有难度，在此之前，如果能够查看某些融资关键词附近上下文，可帮助研究者更全面地了解数据集中关键词的使用情况和语境，更好的设计正则表达式，亦或许意外找出新的有价值的线索。...

采购合同数据集 | 政府采购何以牵动企业创新

中国地方政府采购合同数据是中国政府采购网中国政府购买服务信息平台披露的政府采购合同信息，主要囊括了采购人（甲方）、采购人所属行政区、供应商（乙方）以及合同金额等关键信息。数据自 2008-06-12 ~ 2021-02-03，共有 648538 条。如果某个政府采购合同的以上三项信息中包含关键词库内任意一个关键词，那么该合同就被认定为政府创新采购合同。...

EDGAR | 25年数据的预训练词向量模型

EDGAR 是美国证券交易委员会（SEC）的电子数据收集、分析和检索系统。EDGAR系统允许公众通过互联网访问公司提交给SEC的各种文件，例如注册声明、年度报告和其他披露文件。这些文件包括公司的财务信息、业务信息和其他关键信息，对于投资者和研究人员来说非常有用。金融等方向的同学，如果想用 **词嵌入** 技术开展研究，可以考虑使用这个开源的数据集。EDGAR is an electronic data collection, analysis, and retrieval system of the US Securities and Exchange Commission (SEC). The EDGAR system allows the public to access various documents submitted to the SEC by companies through the internet, such as registration statements, annual reports, and other disclosure documents. These documents include financial information, business information, and other key information of the companies, which is very useful for investors and researchers. Students in finance and related fields who want to conduct research using word embedding techniques may consider using this open-source dataset....

数据集 | 马前卒工作室睡前消息文稿汇总

一直有观看马前卒工作室睡前消息的习惯，感觉他的内容很理性，透露着马列科学社会风。引爆全网的两个话题独山县债务问题、以岭药业连花清瘟胶囊事件。 **数据可以拿来练习词频统计、词云图制作、情感分析、lda话题建模。已整理为csv文件，留给需要的人**。...

1850万条 | 世界地图POI兴趣点数据集

1850万条世界地图POI兴趣点数据集，可用于GIS、区域经济等领域的研究...