相关内容
一、 数据集概括
- 数据源: 哔哩哔哩
- DateRange: 2022-06 ~ 2022-11
- 数据下载地址: https://www.kaggle.com/datasets/beats0/bilibili-user
- 数据量: 1亿
字段 数据类型 含义 uid Number 用户ID code Number 状态码 name String 用户名 level Number 用户等级 [0, 1, 2, 3, 4, 5, 6] sex String 性别 [‘男’, ‘女’, ‘保密’] avatar String 头像 sign String 用户签名 vip_type Number 会员类型(已过期不为0,0为从来不是会员)0:无 1:月度大会员 2:年度及以上大会员 vip_status Number 状态码 0:无 1:有 vip_role Number 会员类型 0:无 1:月度大会员 3:年度大会员 7:十年大会员 15:百年大会员 archive Number 用户稿件数 fans Number 粉丝数 friend Number 关注数 like_num Number 获赞数 is_senior Number 是否为硬核会员 0:否 1:是
二、读取数据
User.csv 文件有 10.44 G, 对一般的电脑而言需要将其分割为多个小份文件, 教程详情请看
大邓就假装各位电脑内存很大,至少16G起步。
import pandas as pd
df = pd.read_csv('User.csv')
df.head()
三、其他操作
- 查看记录量
- 字段数据类型
- 粉丝量最多的10个用户
- 性别分布
- 签名中是否含Python
- …
3.1 数据集记录量
len(df)
100000000
3.2 字段的数据类型
df.dtypes
uid int64
name object
avatar object
level int64
sex object
sign object
vip_type int64
vip_status int64
vip_role int64
archive int64
fans int64
friend int64
like_num int64
is_senior int64
dtype: object
3.3 粉丝量最多的10个用户
#粉丝量最多的10个用户
df.nlargest(10, 'fans')
3.4 性别分布
df.sex.value_counts()
保密 88236345
男 6488548
女 5273634
Name: sex, dtype: int64
3.5 签名中是否含Python
找找做Python的同行,返回的结果里没有大邓
new_df = df[-df['sign'].isna()]
python_ups = new_df[new_df['sign'].str.contains('python')]
python_ups