相关内容



一、 数据集概括

数据来源: 哔哩哔哩
覆盖日期: 2022-06 ~ 2022-11
下载地址: https://www.kaggle.com/datasets/beats0/bilibili-user
记录量: 1亿
声明:  科研用途,如有任何问题,加微信372335839,备注「姓名-学校-专业」
字段 数据类型 含义
uid Number 用户ID
code Number 状态码
name String 用户名
level Number 用户等级 [0, 1, 2, 3, 4, 5, 6]
sex String 性别 [‘男’, ‘女’, ‘保密’]
avatar String 头像
sign String 用户签名
vip_type Number 会员类型(已过期不为0,0为从来不是会员)0:无 1:月度大会员 2:年度及以上大会员
vip_status Number 状态码 0:无 1:有
vip_role Number 会员类型 0:无 1:月度大会员 3:年度大会员 7:十年大会员 15:百年大会员
archive Number 用户稿件数
fans Number 粉丝数
friend Number 关注数
like_num Number 获赞数
is_senior Number 是否为硬核会员 0:否 1:是



二、读取数据

User.csv 文件有 10.44 G, 对一般的电脑而言需要将其分割为多个小份文件, 教程详情请看

大邓就假装各位电脑内存很大,至少16G起步。

import pandas as pd

df = pd.read_csv('User.csv')
df.head()



三、其他操作

  • 查看记录量
  • 字段数据类型
  • 粉丝量最多的10个用户
  • 性别分布
  • 签名中是否含Python

3.1 数据集记录量

len(df)

Run

    100000000

3.2 字段的数据类型

df.dtypes

Run

    uid            int64
    name          object
    avatar        object
    level          int64
    sex           object
    sign          object
    vip_type       int64
    vip_status     int64
    vip_role       int64
    archive        int64
    fans           int64
    friend         int64
    like_num       int64
    is_senior      int64
    dtype: object

3.3 粉丝量最多的10个用户

#粉丝量最多的10个用户
df.nlargest(10, 'fans')


3.4 性别分布

df.sex.value_counts()

Run

    保密    88236345
    男      6488548
    女      5273634
    Name: sex, dtype: int64

3.5 签名中是否含Python

找找做Python的同行,返回的结果里没有大邓

new_df = df[-df['sign'].isna()]
python_ups = new_df[new_df['sign'].str.contains('python')]
python_ups



广而告之