按照科研层次,将数据集(资源)类型划分为如下四方面
- 社会
- 企业
- 用户
- 其他
本列表所展示的数据集,均为整理自网络公开内容。 为方便经管社科领域学者开展大数据范式的科学研究,本列表将展示如何用Python处理这类大体量数据集。
如有任何问题, 可加微信372335839,备注「姓名-学校-专业」。
社会
- 数据集 | 含 人民日报/经济日报/光明日报 等 120 家报纸(2025.3)
- 数据集 | 人民网地方领导留言板原始文本(2011-2023.12)
- 数据集 | 4628w条全球手机蜂窝基站数据(2006~2024.5)
- 数据集 | 5112w+专利申请数据集(1985-2025)
- 数据集 | USA Today 新闻数据集(2012~2024)
- 数据集 | ChinaDaily 新闻数据集(2008 ~ 2024)
- 数据集 | 企业家 Entrepreneur 杂志数据集(1996 ~ 2024)
- 数据集 | 纽约时报 NYTimes 新闻数据集(2000~2025.3.1)
- 数据集 | 30w播客(Podcast)的560w条评论数据(2005-2023)
- 数据集 | 30w条「问政湖南」留言&回复数据(2010-2024)
- 数据集 | 2.49亿条中国工商注册企业信息(23.9更新)
- 数据集 | 中国裁判文书网(2010-2021)
- 数据集 | 372w政府采购合同公告明细数据(2024.03)
- 数据集 | 国、省、市三级政府工作报告文本(1954-2023)
- 数据集 | arXiv网站 269w 学术论文元数据 (2007 ~ 2025)
- 数据集 | NOS.nl荷兰新闻数据集(2015~2025.2.28)
- 数据集 | CBS News 新闻数据集(1998 ~ 2024)
- 数据集 | 使用 1000w 条豆瓣影评训练Word2Vec
- 数据集 | 3394w条豆瓣书评数据集
- 数据集 | 2024年中国全国5级行政区划(省、市、县、镇、村)
- 数据集 | 行政区划代码历史沿革数据集
- 数据集 | 3.9G 全国 POI 地点兴趣点数据集
- 数据集 | 6.6亿条美国谷歌地图POI评论数据(~2021.9)
- 数据源 | 使用该网站可查询被制裁的个人、企业组织等制裁清单
- 数据集 | Glassdoor网站 990w 条英国公司(职位)评论数据(2008~2023.7)
- 数据集 | 5513w条外文电影评论数据(1902~2024)
企业
- 数据集 | 536w条「上证e互动、深证互动易」问答记录(2011-2024.12.31)
- 数据集| 美股年报10-K、20-F数据(2000-2023.12)
- 数据集 | 港股年报文本数据集(2007 ~ 2023.12)
- 数据集 | 三板上市公司年报(2002-2023.12)
- 数据集 | 1998-2023年中国基金年度报告
- 数据集 | 上市公司招聘数据(2014~2023)
- 数据集 | 应届生招聘数据集(2014~2024.12)
- 数据集 | 2012年-2023年港股ESG报告数据集
- 数据集 | 2001年-2023年A股上市公司年报&管理层讨论与分析
- 数据集 | 2006年-2023年A股企业社会责任报告/环境报告书/可持续发展报告
- 词向量 | 使用MD&A2001-2022语料训练Word2Vec模型
- 数据集 | 上市公司董监高人员的个人特征/教育背景/任职情况
- 数据集 | 2014年-2023年「问询函」
- 数据集 | 84w条业绩说明会问答数据(2005-2023)
- 数据集 | 上市公司 208 万条专利数据集 (1991-2022)
- 数据集 | Layline美股内幕交易数据集
- 数据集 | 聚焦美股企业社会责任CSR Wire网站新闻数据集(1999-2024)
- 数据集 | 36330条上市公司仲裁数据(2000-2021.9)
- 数据集 | 07-21年上市公司「委托贷款公告」
- 数据集 | 90w 条中国上市公司高管数据
- 数据集| 1850万条世界地图 POI 兴趣点数据集
用户
- 数据集 | 消费者金融投诉数据集(2011 ~ 2025.3)
- 数据集 | 众筹平台 kiva 借贷信息
- 数据集 | 1000万 Github 用户数据
- 数据集 | 使用 GH Archive 获取 Github 社区用户数据
- 数据集 | 3.3万 Instagram Influencer 的 1018万条推文数据
- 数据集 | YelpDaset 酒店管理类数据集
- 数据集 | 200万条 Indiegogo 众筹项目信息
- 数据集 | 23w条 Kickstarter 项目信息
- 数据集 | B站/哔哩哔哩 1 亿用户数据(脱敏)
- 数据集 | 80w 知乎用户问答数据(脱敏)
- 数据集 | 马前卒工作室 睡前消息文稿汇总
其他
- 词向量 | 中文词向量资源汇总 & 使用方法
- 词向量 | 汽车、金融等 9 大领域预训练词向量模型下载资源
- 词向量| 25 年数据的预训练词向量模型(EDGAR)
- 词向量 | 多语言对齐词向量预训练模型
- 词典 | 中文心理词典,含具体性、可成象性等指标
- 词典 | ANCW 4030 词的中文情感词典(效价、唤醒度、主导度、具体性)
- 词典 | Nature通用中英文六维语义情感词典
- 词典| 中文语义常用词典(ChineseSemanticKB)