EDGAR | 25年数据的预训练词向量模型

EDGAR 是美国证券交易委员会(SEC)的电子数据收集、分析和检索系统。EDGAR系统允许公众通过互联网访问公司提交给SEC的各种文件,例如注册声明、年度报告和其他披露文件。这些文件包括公司的财务信息、业务信息和其他关键信息,对于投资者和研究人员来说非常有用。金融等方向的同学,如果想用 **词嵌入** 技术开展研究, 可以考虑使用这个开源的数据集。EDGAR is an electronic data collection, analysis, and retrieval system of the US Securities and Exchange Commission (SEC). The EDGAR system allows the public to access various documents submitted to the SEC by companies through the internet, such as registration statements, annual reports, and other disclosure documents. These documents include financial information, business information, and other key information of the companies, which is very useful for investors and researchers. Students in finance and related fields who want to conduct research using word embedding techniques may consider using this open-source dataset....

2023-03-08 · 2 min · 大邓

数据集 | 马前卒工作室睡前消息文稿汇总

一直有观看马前卒工作室睡前消息的习惯, 感觉他的内容很理性, 透露着马列科学社会风。 引爆全网的两个话题独山县债务问题、以岭药业连花清瘟胶囊事件。 **数据可以拿来练习词频统计、词云图制作、情感分析、lda话题建模。已整理为csv文件,留给需要的人**。...

2023-03-06 · 1 min · 大邓

1850万条 | 世界地图POI兴趣点数据集

1850万条世界地图POI兴趣点数据集,可用于GIS、区域经济等领域的研究...

2022-12-10 · 1 min · 大邓

数据集 | 80w知乎用户问答数据(脱敏)

ZhihuRec数据集由清华大学信息检索组(THUIR)和知乎公司共同构建,仅供研究使用。ZhihuRec 数据集是从知识共享平台(知乎)收集的,该平台由 10 天内收集的约 100M 交互、798K 用户、165K 问题、554K 答案、240K 作者、70K 主题和超过 501K 用户查询日志组成。 还有用户、答案、问题、作者和主题的描述,这些都是匿名的。 据我们所知,这是用于个性化推荐的最大的真实世界交互数据集。由于ZhihuRec数据集包含约100M的用户回答印象日志,因此也称为ZhihuRec-100M。 还构建了从 ZhihuRec-100M 数据集随机采样的两个较小的数据集,分别称为 ZhihuRec-20M 和 ZhihuRec-1M,以满足各种应用需求。 它们包含大约 20M 和 1M 的用户回答印象日志,可以看作是一个中等大小的数据集和一个相对较小的数据集。...

2022-12-10 · 4 min · 大邓

12G数据集 | 23w条Kickstarter项目信息

2016年3月写好的kickstarter爬虫,每月执行一次。截止2022年11月, 所有压缩文件累积11.42G。文末有数据获取方式...

2022-12-04 · 4 min · 大邓