
数据集 | arXiv网站 269w 学术论文元数据 (2007 ~ 2025)
在这些独特的全球挑战时期,从数据中高效提取洞察至关重要。为了使 arXiv 更加易于访问,我们在此提供一个免费的开源 Kaggle 管道,用于机器可读的 arXiv 数据集:一个包含 170 万篇文章的仓库,具有相关特征,如文章标题、作者、类别、摘要、全文 PDF 等。In these times of unique global challenges, efficient extraction of insights from data is essential. To help make the arXiv more accessible, we present a free, open pipeline on Kaggle to the machine-readable arXiv dataset: a repository of 1.7 million articles, with relevant features such as article titles, authors, categories, abstracts, full text PDFs, and more....