一、数据集概况
数据集名: 电影评论数据
数据来源: https://www.rottentomatoes.com/
电影年份: 1902 ~ 2024
评论日期: 1996-01-19 ~ 2024-07-17
评论数量: 55130430 (5513w)
评论人数: 8766682 (876w)
电影数量: 10411(9026英文,其余为各种语言)
所含字段: 电影id、评论者id、评论文本、评分、电影上映日期等。
数据格式: csv
下载数据: https://www.kaggle.com/datasets/bwandowando/rotten-tomatoes-9800-movie-critic-and-user-reviews
本文声明: 科研用途; 如分享有问题,可加微信372335839,备注「姓名-学校-专业」
二、查看数据
2.1 读取数据
%%time
import pandas as pa
df = pd.read_csv('user_reviews.csv')
print(len(df))
df.head()
Run
55130430
CPU times: user 1min 29s, sys: 14.4 s, total: 1min 43s
Wall time: 1min 47s
2.2 覆盖日期
df['creationDate'] = pd.to_datetime(df['creationDate'])
print('评论覆盖日期: ', df['creationDate'].min().date(), '~', df['creationDate'].max().date())
Run
评论覆盖日期: 1996-01-19 ~ 2024-07-17
2.3 电影数量
df.movieId.nunique()
Run
10411
2.4 评论人数
df.userId.nunique()
Run
8766682