
数据集 | 80w知乎用户问答数据(脱敏)
ZhihuRec数据集由清华大学信息检索组(THUIR)和知乎公司共同构建,仅供研究使用。ZhihuRec 数据集是从知识共享平台(知乎)收集的,该平台由 10 天内收集的约 100M 交互、798K 用户、165K 问题、554K 答案、240K 作者、70K 主题和超过 501K 用户查询日志组成。 还有用户、答案、问题、作者和主题的描述,这些都是匿名的。 据我们所知,这是用于个性化推荐的最大的真实世界交互数据集。由于ZhihuRec数据集包含约100M的用户回答印象日志,因此也称为ZhihuRec-100M。 还构建了从 ZhihuRec-100M 数据集随机采样的两个较小的数据集,分别称为 ZhihuRec-20M 和 ZhihuRec-1M,以满足各种应用需求。 它们包含大约 20M 和 1M 的用户回答印象日志,可以看作是一个中等大小的数据集和一个相对较小的数据集。...