相关内容
一、 数据集概括
数据来源: 哔哩哔哩
覆盖日期: 2022-06 ~ 2022-11
下载地址: https://www.kaggle.com/datasets/beats0/bilibili-user
记录量: 1亿
声明: 科研用途,如有任何问题,加微信372335839,备注「姓名-学校-专业」
字段 | 数据类型 | 含义 |
---|---|---|
uid | Number | 用户ID |
code | Number | 状态码 |
name | String | 用户名 |
level | Number | 用户等级 [0, 1, 2, 3, 4, 5, 6] |
sex | String | 性别 [‘男’, ‘女’, ‘保密’] |
avatar | String | 头像 |
sign | String | 用户签名 |
vip_type | Number | 会员类型(已过期不为0,0为从来不是会员)0:无 1:月度大会员 2:年度及以上大会员 |
vip_status | Number | 状态码 0:无 1:有 |
vip_role | Number | 会员类型 0:无 1:月度大会员 3:年度大会员 7:十年大会员 15:百年大会员 |
archive | Number | 用户稿件数 |
fans | Number | 粉丝数 |
friend | Number | 关注数 |
like_num | Number | 获赞数 |
is_senior | Number | 是否为硬核会员 0:否 1:是 |
二、读取数据
User.csv 文件有 10.44 G, 对一般的电脑而言需要将其分割为多个小份文件, 教程详情请看
大邓就假装各位电脑内存很大,至少16G起步。
import pandas as pd
df = pd.read_csv('User.csv')
df.head()
三、其他操作
- 查看记录量
- 字段数据类型
- 粉丝量最多的10个用户
- 性别分布
- 签名中是否含Python
- …
3.1 数据集记录量
len(df)
Run
100000000
3.2 字段的数据类型
df.dtypes
Run
uid int64
name object
avatar object
level int64
sex object
sign object
vip_type int64
vip_status int64
vip_role int64
archive int64
fans int64
friend int64
like_num int64
is_senior int64
dtype: object
3.3 粉丝量最多的10个用户
#粉丝量最多的10个用户
df.nlargest(10, 'fans')
3.4 性别分布
df.sex.value_counts()
Run
保密 88236345
男 6488548
女 5273634
Name: sex, dtype: int64
3.5 签名中是否含Python
找找做Python的同行,返回的结果里没有大邓
new_df = df[-df['sign'].isna()]
python_ups = new_df[new_df['sign'].str.contains('python')]
python_ups