数据集 | 80w知乎用户问答数据(脱敏)

ZhihuRec数据集由清华大学信息检索组(THUIR)和知乎公司共同构建,仅供研究使用。ZhihuRec 数据集是从知识共享平台(知乎)收集的,该平台由 10 天内收集的约 100M 交互、798K 用户、165K 问题、554K 答案、240K 作者、70K 主题和超过 501K 用户查询日志组成。 还有用户、答案、问题、作者和主题的描述,这些都是匿名的。 据我们所知,这是用于个性化推荐的最大的真实世界交互数据集。由于ZhihuRec数据集包含约100M的用户回答印象日志,因此也称为ZhihuRec-100M。 还构建了从 ZhihuRec-100M 数据集随机采样的两个较小的数据集,分别称为 ZhihuRec-20M 和 ZhihuRec-1M,以满足各种应用需求。 它们包含大约 20M 和 1M 的用户回答印象日志,可以看作是一个中等大小的数据集和一个相对较小的数据集。...

2022-12-10 · 4 min · 大邓

12G数据集 | 23w条Kickstarter项目信息

2016年3月写好的kickstarter爬虫,每月执行一次。截止2022年11月, 所有压缩文件累积11.42G。文末有数据获取方式...

2022-12-04 · 4 min · 大邓

JM2022 | 梳理营销领域使用网络爬虫技术的研究

Journal of Marketing 2022年一篇关于营销领域使用网络爬虫收集数据的文献...

2022-12-03 · 4 min · Boegershausen

魔搭 | 中文AI模型开源社区

ModelScope社区成立于2022 年6月,是一个模型开源社区及创新平台,由阿里巴巴达摩院,联合CCF开源发展委员会,共同作为项目发起方。社区联合国内AI领域合作伙伴与高校机构,致力于通过开放的社区合作,构建深度学习相关的模型开源,并开源相关模型服务创新技术,推动模型应用生态的繁荣发展。...

2022-11-09 · 1 min · 大邓

十万级 | 多领域因果事件对数据集对外开源

description用于SEO优化...

2022-11-07 · 1 min · 刘焕勇