按照科研层次,将数据集(资源)类型划分为如下四方面
- 社会
- 企业
- 用户
- 其他
本列表所展示的数据集,均为整理自网络公开内容。 为方便经管社科领域学者开展大数据范式的科学研究,本列表将展示如何用Python处理这类大体量数据集。
如有任何问题(包括不限于交流,或展示内容影响贵方权益), 可加微信372335839,备注「姓名-学校(公司)-专业(职务)」。
Tips: 加粗的内容基本都是付费内容, 未加粗大多为免费内容。
社会
- 新闻数据集(中文) | 含 人民日报/经济日报/光明日报 等 120 家媒体(2024)
- 数据集 | 人民网地方领导留言板原始文本(2011-2023.12)
- 数据集(英文)| USA Today新闻数据集(2012~2024)
- 数据集(中英) | ChinaDaily新闻数据集(2008 ~ 2024)
- 数据集 | 企业家Entrepreneur杂志数据集(1996 ~ 2024)
- 数据集(英文) | CBS News新闻数据集(1998 ~ 2024)
- 数据集 | 30w条「问政湖南」留言&回复数据(2010-2024)
- 数据集 | 30w播客(Podcast)的560w条评论数据(2005-2023)
- 数据集 | 372w政府采购合同公告明细数据(2024.03)
- 数据集 | 国、省、市三级政府工作报告文本(1954-2023)
- 新闻数据集 | 1102w条纽约时报(1920-2020)
- 数据集 | 使用1000w条豆瓣影评训练Word2Vec
- 数据集 | 3394w条豆瓣书评数据集
- 数据集 | 2024年中国全国5级行政区划(省、市、县、镇、村)
- 数据集 | 行政区划代码历史沿革数据集
- 数据集 | 2010-2023年国家社会科学基金立项名单.xlsx
- 数据集 | 2.49亿条中国工商注册企业信息(23.9更新)
- 数据集 | 中国裁判文书网(2010-2021)
- 数据集 | 3571万条专利申请数据集(1985-2022年)
- 数据集 | 3.9G 全国POI地点兴趣点数据集
- Open Sanctions | 使用该网站可查询被制裁的个人、企业组织等制裁清单
企业
- 数据集 | 2001年-2023年A股上市公司年报&管理层讨论与分析
- 数据集 | 2006年-2023年A股企业社会责任报告/环境报告书/可持续发展报告
- 数据集 | 港股年报文本数据集(2007 ~ 2023.12)
- 数据集 | 2012年-2023年港股ESG报告数据集
- 数据集| 美股年报10-K、20-F数据(2000-2023.12)
- 数据集 | 聚焦美股企业社会责任CSR Wire网站新闻数据集(1999-2024)
- 数据集| 三板上市公司年报2002-2023.12
- 数据集 | 36330条上市公司仲裁数据(2000-2021.9)
- 数据集 | 上市公司 208 万条专利数据集 (1991-2022)
- 词向量 | 使用MD&A2001-2022语料训练Word2Vec模型
- 数据集 | 2014年-2023年「问询函」
- 数据集 | 84w条业绩说明会问答数据(2005-2023)
- 数据集 | 07-21年上市公司「委托贷款公告」
- 数据集 | 90w条中国上市公司高管数据
- 数据集 | 上市公司董监高人员的个人特征/教育背景/任职情况
- 1850万条 | 世界地图POI兴趣点数据集
- 数据集 | 谷歌地图美国区域内poi、评论信息等信息
- 数据集 | 用来练习pandas的招聘数据
用户
- 数据集 | 众筹平台kiva借贷信息
- 数据集 | 1000万 Github 用户数据
- 2T数据集 | 使用GH Archive获取Github社区用户数据
- 数据集 | 3.3万 Instagram Influencer的 1018万条推文数据
- 10G数据集 | YelpDaset酒店管理类数据集
- 1.5G数据集 | 200万条Indiegogo众筹项目信息
- 12G数据集 | 23w条Kickstarter项目信息
- 数据集 | B站/哔哩哔哩 1 亿用户数据(脱敏)
- 数据集 | 80w知乎用户问答数据(脱敏)
- 数据集 | 马前卒工作室 睡前消息文稿汇总