相关内容



一、 数据集概括

  • 数据源: 哔哩哔哩
  • DateRange: 2022-06 ~ 2022-11
  • 数据下载地址: https://www.kaggle.com/datasets/beats0/bilibili-user
  • 数据量: 1亿
    字段 数据类型 含义
    uid Number 用户ID
    code Number 状态码
    name String 用户名
    level Number 用户等级 [0, 1, 2, 3, 4, 5, 6]
    sex String 性别 [‘男’, ‘女’, ‘保密’]
    avatar String 头像
    sign String 用户签名
    vip_type Number 会员类型(已过期不为0,0为从来不是会员)0:无 1:月度大会员 2:年度及以上大会员
    vip_status Number 状态码 0:无 1:有
    vip_role Number 会员类型 0:无 1:月度大会员 3:年度大会员 7:十年大会员 15:百年大会员
    archive Number 用户稿件数
    fans Number 粉丝数
    friend Number 关注数
    like_num Number 获赞数
    is_senior Number 是否为硬核会员 0:否 1:是



二、读取数据

User.csv 文件有 10.44 G, 对一般的电脑而言需要将其分割为多个小份文件, 教程详情请看

大邓就假装各位电脑内存很大,至少16G起步。

import pandas as pd

df = pd.read_csv('User.csv')
df.head()



三、其他操作

  • 查看记录量
  • 字段数据类型
  • 粉丝量最多的10个用户
  • 性别分布
  • 签名中是否含Python

3.1 数据集记录量

len(df)
100000000

3.2 字段的数据类型

df.dtypes
uid            int64
name          object
avatar        object
level          int64
sex           object
sign          object
vip_type       int64
vip_status     int64
vip_role       int64
archive        int64
fans           int64
friend         int64
like_num       int64
is_senior      int64
dtype: object

3.3 粉丝量最多的10个用户

#粉丝量最多的10个用户
df.nlargest(10, 'fans')


3.4 性别分布

df.sex.value_counts()
保密    88236345
男      6488548
女      5273634
Name: sex, dtype: int64

3.5 签名中是否含Python

找找做Python的同行,返回的结果里没有大邓

new_df = df[-df['sign'].isna()]
python_ups = new_df[new_df['sign'].str.contains('python')]
python_ups



广而告之