一、数据集概况

数据集名: 电影评论数据
数据来源: https://www.rottentomatoes.com/
电影年份: 1902 ~ 2024
评论日期: 1996-01-19 ~ 2024-07-17
评论数量: 55130430 (5513w)
评论人数: 8766682 (876w)
电影数量: 10411(9026英文,其余为各种语言)
所含字段: 电影id、评论者id、评论文本、评分、电影上映日期等。
数据格式: csv
下载数据: https://www.kaggle.com/datasets/bwandowando/rotten-tomatoes-9800-movie-critic-and-user-reviews
本文声明: 科研用途; 如分享有问题,可加微信372335839,备注「姓名-学校-专业」



二、查看数据

2.1 读取数据

%%time
import pandas as pa

df = pd.read_csv('user_reviews.csv')
print(len(df))
df.head()

Run

55130430
CPU times: user 1min 29s, sys: 14.4 s, total: 1min 43s
Wall time: 1min 47s


2.2 覆盖日期

df['creationDate'] = pd.to_datetime(df['creationDate'])

print('评论覆盖日期: ', df['creationDate'].min().date(), '~', df['creationDate'].max().date())

Run

评论覆盖日期: 1996-01-19 ~ 2024-07-17

2.3 电影数量

df.movieId.nunique()

Run

10411

2.4 评论人数

df.userId.nunique()

Run

8766682