LovelyPlots库 | 格式化科学论文、论文和演示文稿的可视化图形

LovelyPlots库可以很好地格式化科学论文、论文和演示文稿的可视化图形,同时使它们在 Adobe Illustrator 中完全可编辑。...

2022-12-10 · 1 min · 大邓

数据集 | 80w知乎用户问答数据(脱敏)

ZhihuRec数据集由清华大学信息检索组(THUIR)和知乎公司共同构建,仅供研究使用。ZhihuRec 数据集是从知识共享平台(知乎)收集的,该平台由 10 天内收集的约 100M 交互、798K 用户、165K 问题、554K 答案、240K 作者、70K 主题和超过 501K 用户查询日志组成。 还有用户、答案、问题、作者和主题的描述,这些都是匿名的。 据我们所知,这是用于个性化推荐的最大的真实世界交互数据集。由于ZhihuRec数据集包含约100M的用户回答印象日志,因此也称为ZhihuRec-100M。 还构建了从 ZhihuRec-100M 数据集随机采样的两个较小的数据集,分别称为 ZhihuRec-20M 和 ZhihuRec-1M,以满足各种应用需求。 它们包含大约 20M 和 1M 的用户回答印象日志,可以看作是一个中等大小的数据集和一个相对较小的数据集。...

2022-12-10 · 4 min · 大邓

12G数据集 | 23w条Kickstarter项目信息

2016年3月写好的kickstarter爬虫,每月执行一次。截止2022年11月, 所有压缩文件累积11.42G。文末有数据获取方式...

2022-12-04 · 4 min · 大邓

BERTopic | 使用推特数据构建动态主题模型

在本文中将使用BERTopic库,对美国前总统Trump推特数据集,构建动态主题模型DTM(Dynamic Topic Modeling),可视化文档数据集中不同主题随时间的演变(变迁)。...

2022-12-04 · 4 min · 大邓

JM2022 | 梳理营销领域使用网络爬虫技术的研究

Journal of Marketing 2022年一篇关于营销领域使用网络爬虫收集数据的文献...

2022-12-03 · 4 min · Boegershausen