数据集 | arXiv网站 269w 学术论文元数据 (2007 ~ 2025)

在这些独特的全球挑战时期,从数据中高效提取洞察至关重要。为了使 arXiv 更加易于访问,我们在此提供一个免费的开源 Kaggle 管道,用于机器可读的 arXiv 数据集:一个包含 170 万篇文章的仓库,具有相关特征,如文章标题、作者、类别、摘要、全文 PDF 等。In these times of unique global challenges, efficient extraction of insights from data is essential. To help make the arXiv more accessible, we present a free, open pipeline on Kaggle to the machine-readable arXiv dataset: a repository of 1.7 million articles, with relevant features such as article titles, authors, categories, abstracts, full text PDFs, and more....

2025-03-14 · 2 min · 大邓

数据集 | Glassdoor网站 990w 条英国公司(职位)评论数据(2008~2023.7)

Glassdoor 成立于2007年,总部位于美国加利福尼亚州的 Mill Valley。 Glassdoor允许员工匿名发布对公司、工作环境、薪资等方面的评价,同时也提供了职位搜索、公司评分、面试经验分享等功能,为求职者和在职员工提供参考。尽管Glassdoor起源于美国,但它已经扩展到包括英国在内的多个国家和地区,为全球用户提供服务。这意味着用户可以在Glassdoor上查找来自世界各地的公司信息和职位空缺,包括但不限于:公司评论和评分、薪资报告、面试问题和经验、职位招聘信息因此,虽然Glassdoor可以在英国使用,并且对英国的职场人士非常有用,但它并不是一个仅限于英国或由英国运营的网站。它是一个跨国平台,旨在为全球用户提供有关职场和招聘过程中的透明信息。...

2025-03-14 · 2 min · 大邓

数据集 | 上市公司招聘数据(2014~2023)

...

2025-03-06 · 2 min · 大邓

数据集 | 应届生招聘数据集(2014~2024.12)

...

2025-03-06 · 2 min · 大邓

数据集 | 消费者金融投诉数据集(2011 ~ 2025.3)

消费者投诉数据集作为一种典型的**另类数据**(如非结构文本数据),具有多方面重要科研价值,为多学科研究和企业实践提供了新视角与有力支持:1. **丰富另类数据研究**:该数据集为另类数据研究注入新活力。其数据**体量庞大、时效性好、真实性强且颗粒度细**,克服了传统研究依赖小样本数据的局限。通过对消费者投诉数据信息含量和投资价值的挖掘,能从数据类型和应用场景等多维度丰富相关研究文献,推动另类数据在学术领域的深入发展。2. **补充基本面预测研究**:在金融领域,寻找预测基本面的有效指标意义重大。消费者投诉数据集为该研究提供了新方向。以往研究发现消费者投诉对基本面预测有影响,本数据集利用中国数据和更广泛的消费类公司数据进行拓展,并探讨异质性影响,进一步补充了基本面预测影响因素的研究文献。3. **拓展企业口碑研究**:消费者投诉在很大程度上影响企业口碑。以往企业口碑研究多采用小样本实验或问卷调研,缺乏真实世界大数据支持。基于 “黑猫投诉” 平台的千万级别真实数据构建的数据集,能更准确地分析消费者投诉行为,为企业口碑相关研究提供丰富且可靠的数据支撑,拓展该领域研究深度与广度。4. **助力多主体决策研究**:对监管机构而言,可通过分析投诉数据,实现官方与非官方投诉渠道联动,确定监管重点领域,提升监管效能;对金融监管部门,鉴于投诉数据对公司基本面前瞻性预测能力,纳入监测体系有助于防范金融风险,维护金融市场稳定;对上市公司,利用投诉数据能发现经营问题,改进产品和服务,提高消费者满意度与管理水平;对专业投资者,投诉数据可作为投资决策参考,辅助构建投资组合,获取更高收益。这些应用场景为研究不同主体如何利用投诉数据进行科学决策提供了实践依据...

2025-03-06 · 1 min · 大邓