一、数据集概况
https://sites.google.com/site/sbkimcv/dataset/instagram-influencer-dataset
- 33,935 位 Instagram 影响者(分为 9 个类别)
- 10,180,500 个 Instagram 帖子
- 发布元数据(JSON 文件):~37 GB
- 图像(JPEG 文件):~189 GB
作者很nice的,点击 上方链接 给作者留下你的信息,两三天就收到数据集下载链接(谷歌网盘)。
作为 AI for Influencer Marketing 的一部分,我从 Instagram 收集了数据并出于研究目的进行分享。该数据集包含 33,935 位影响者及其 10,180,500 个 Instagram 帖子(每个影响者 300 个帖子)。该数据集包括两种类型的文件: 帖子元数据 和 图像文件 。
帖子元数据文件采用 JSON 格式,包含以下信息:标题、用户标签、主题标签、时间戳、赞助、点赞、评论等。图像文件采用 JPEG 格式,数据集包含 12,933,406 个图像文件,因为一篇帖子可以有多个图像文件图像文件。如果一篇文章只有一个图像文件,则 JSON 文件和相应的图像文件具有相同的名称。但是,如果一篇文章包含多个图像,则 JSON 文件和相应的图像文件具有不同的名称。因此,我们还提供了一个 JSON-Image_mapping 文件,该文件显示与帖子元数据对应的图像文件列表。
影响者分为以下九类:
- Beauty
- Family
- Fashion
- Fitness
- Food
- Interior
- Pet
- Travel
- Other
二、引用说明
使用 Instagram Influencer Dataset , 需声明数据来源,
“Multimodal Post Attentive Profiling for Influencer Marketing,” Seungbae Kim, Jyun-Yu Jiang, Masaki Nakada, Jinyoung Han and Wei Wang. In Proceedings of The Web Conference (WWW ‘20), ACM, 2020.
@inproceedings{kim2020multimodal,
title={Multimodal Post Attentive Profiling for Influencer Marketing},
author={Kim, Seungbae and Jiang, Jyun-Yu and Nakada, Masaki and Han, Jinyoung and Wang, Wei},
booktitle={Proceedings of The Web Conference 2020},
pages={2878--2884},
year={2020}
}
三、其他营销数据
- 数据集 | 1000万 Github 用户数据
- 2T数据集 | 使用GH Archive获取Github社区用户数据
- 数据集 | 3.3万 Instagram Influencer的 1018万条推文数据
- 10G数据集 | YelpDaset酒店管理类数据集
- 1.5G数据集 | 200万条Indiegogo众筹项目信息
- 12G数据集 | 23w条Kickstarter项目信息
- 数据集 | B站/哔哩哔哩 1 亿用户数据
- 数据集 | 80w知乎用户问答数据