这篇资源帖按照汇总
- 社会
- 企业
- 用户
- 词向量
- 词典
社会
- 数据集(付费) | 人民网地方领导留言板原始文本(2011-2023.12)
- 新闻数据集(付费) | 含 人民日报/经济日报/光明日报 等 7 家媒体(2023.12.18)
- 数据集(付费) | 372w政府采购合同公告明细数据(2024.03)
- 数据集(付费) | 国、省、市三级政府工作报告文本(1954-2023)
- 数据集(付费) | cctv新闻联播文稿数据集
- 数据集 | 使用1000w条豆瓣影评训练Word2Vec
- 数据集 | 3394w条豆瓣书评数据集
- 实验数据 | 194城市楼市政策梳理(2010-2022)
- 数据集 | 2024年中国全国5级行政区划(省、市、县、镇、村)
- 数据集 | 行政区划代码历史沿革数据集
企业
- 数据集 | A股上市公司基本信息
- 数据集(付费) | 2001年-2022年A股上市公司年报&管理层讨论与分析
- 数据集 | 港股年报文本数据集(2007 ~ 2023.12)
- 数据集(付费) | 美股年报10-K、20-F数据(2000-2023.12)
- 数据集(付费) | 三板上市公司年报2002-2023.12
- 数据集(付费) | 中国裁判文书网(2010-2021.10)
- 数据集(付费) | 36330条上市公司仲裁数据(2000-2021.9)
- 数据集 | 5.6亿条海关数据集(2000-2021.3 商品hs编码已统一)
- 数据集(付费) | 2.49亿条中国工商注册企业信息(23.9更新)
- 数据集(付费) | 3571万条专利申请数据集(1985-2022年)
- 数据集(付费) | 上市公司 208 万条专利数据集 (1991-2022)
- 数据集(付费) | 专利转让数据库(1985-2021)
- 数据集(付费) | 3.9G全国POI地点兴趣点数据集
- 词向量(付费) | 使用MD&A2001-2022语料训练Word2Vec模型
- 数据集(付费) | 2014年-2021年「问询函」
- 数据集(付费) | 2006年-2022年沪深企业社会责任报告
- 数据集(付费) | 84w条业绩说明会问答数据(2005-2023)
- 数据集(付费) | 上市公司(董监高)个人特征/教育背景/任职情况
- 数据集(付费) | 90w条中国上市公司高管数据
- 数据集 | 上市公司高管违规数据(2008-2022)
- 数据集 | 07-21年上市公司「委托贷款公告」
- 数据集 | 企业社会责任报告数据集
- 27G数据集 | 使用Python对27G招股说明书进行文本分析
- 70G数据集 | 上交所定期报告数据集
- 14G数据集 | 2007-2021年A股上市公司年度报告(txt文件)
- 1850万条 | 世界地图POI兴趣点数据集
- 数据集 | 谷歌地图美国区域内poi、评论信息等信息
- 数据集 | 用来练习pandas的招聘数据
用户
- 数据集 | 众筹平台kiva借贷信息
- 数据集 | 1000万 Github 用户数据
- 2T数据集 | 使用GH Archive获取Github社区用户数据
- 数据集 | 3.3万 Instagram Influencer的 1018万条推文数据
- 10G数据集 | YelpDaset酒店管理类数据集
- 1.5G数据集 | 200万条Indiegogo众筹项目信息
- 12G数据集 | 23w条Kickstarter项目信息
- 数据集 | B站/哔哩哔哩 1 亿用户数据
- 数据集 | 80w知乎用户问答数据
- 数据集 |马前卒工作室 睡前消息文稿汇总
词向量
- 词向量(付费) | 使用3751w专利申请数据集按年份(按省份)训练词向量
- 词向量(付费) | 使用1985年-2022年专利申请摘要训练word2vec模型
- 词向量(付费) | 使用MD&A2001-2022语料训练Word2Vec模型
- 词向量 | 使用人民网领导留言板语料训练Word2Vec模型
- 案例分享| 使用裁判文书数据集逐年训练年份词向量
- 中文词向量资源汇总 & 使用方法
- NLP资源 | 汽车、金融等9大领域预训练词向量模型下载资源
- EDGAR | 25年数据的预训练词向量模型
- 数据集 | 多语言对齐词向量预训练模型
词典
- 中文心理词典,含具体性、可成象性等指标
- ANCW | 4030词的中文情感词典(效价、唤醒度、主导度、具体性)
- Nature | 通用中英文六维语义情感词典
- ChineseSemanticKB | 中文语义常用词典
- DomainWordsDict | 领域词库构建方法与68领域、916万级专业词库分享
- 小规模金融并购、投资事件图谱设计概述与数据构成解析
- Google Books Ngram Viewer显示英文词汇历史使用趋势
- 十万级 | 多领域因果事件对数据集对外开源
其他
最后
数据集和模型资源比较少,各位如果有新资源,欢迎留言分享或者邮箱thunderhit@qq.com联系我。