LIST | 可供社科(经管)领域使用的科研数据集清单

可供社科(经管)使用的数据集...

2025-03-13 · 2 min · 大邓

新闻数据集(中文) | 含 人民日报/光明日报/参考消息/经济日报 等 120 家媒体(2025.03)

日报数据集研究价值大, 您可从中提取丰富的指标,包括但不限于经济政策不确定性指数EPU 、 媒体关注度指数、文本相似度、情感分析。而且可训练词向量,构建新的词典,开发新的指标指数。计算机自然语言处理、经济学、管理学、新闻传播学、公共管理等领域均可使用。...

2025-03-22 · 9 min · 大邓

数据集 | 5513w条外文电影评论数据(1900~2021.9)

数据集采集自Rotten Tomatoes网站, 含 10500部电影,5600万+ 用户评价!其中有 100 万+为精选评论! 电影从20世纪初到2024年的都有!英语、法语、日语、 Hindi 以及许多其他语言的电影! 该数据集的用途包括计算机科学自然语言处理,社会学文化演变、刻板印象,传播学等。...

2025-03-17 · 1 min · 大邓

数据集 | 6.6亿条美国谷歌地图评论数据(~2021.9)

这个数据集包含截至 2021 年 9 月美国谷歌地图上的评论信息(评分、文本、图片等),企业元数据(地址、地理信息、描述、类别信息、价格、营业时间以及其它信息),以及相关企业的链接。...

2025-03-14 · 3 min · 大邓

数据集 | arXiv网站 269w 学术论文元数据 (2007 ~ 2025)

在这些独特的全球挑战时期,从数据中高效提取洞察至关重要。为了使 arXiv 更加易于访问,我们在此提供一个免费的开源 Kaggle 管道,用于机器可读的 arXiv 数据集:一个包含 170 万篇文章的仓库,具有相关特征,如文章标题、作者、类别、摘要、全文 PDF 等。In these times of unique global challenges, efficient extraction of insights from data is essential. To help make the arXiv more accessible, we present a free, open pipeline on Kaggle to the machine-readable arXiv dataset: a repository of 1.7 million articles, with relevant features such as article titles, authors, categories, abstracts, full text PDFs, and more....

2025-03-14 · 2 min · 大邓