
1.1 概况

数据集名:  上市公司招聘数据集(2014~2023)
数据来源:  招聘网站(如智联招聘、Boss直聘等)
记录数两:  6933415
覆盖日期:  2014-01-07 ~ 2023-12-31
数据格式:  csv
数据体积:  7.37 G

1.2 字段介绍

- company    企业名称
- listed_rel 与上市公司关系
- stkcd      关联股票代码
- job        招聘岗位
- city       工作城市
- area       工作区域
- min_sal    最低月薪
- max_sal    最高月薪
- desc       职位描述
- edu        学历要求
- exp        经验要求
- hires      招聘人数
- category   招聘类别
- class      招聘分级
- loc        公司地点
- work_loc   工作地点
- post_date  发布招聘日期
- close_date 结束招聘日期
- source     招聘发布的平台

1.3 说明

科研用途;如有问题, 请加微信372335839,备注「姓名-学校-专业」


2.1 读取数据

import pandas as pd

df = pd.read_csv('上市公司招聘大数据2014-2023年.csv.gz', compression='gzip')
#或  解压得到csv再读取
#df = pd.read_csv('上市公司招聘大数据2014-2023年.csv')

print('记录条数:', len(df))


记录条数: 6933415

2.2 覆盖日期

df['post_date'] = pd.to_datetime(df['post_date'])

print('覆盖日期: ', df['post_date'].min().date(), '~', df['post_date'].max().date())


覆盖日期:  2014-01-07 ~ 2023-12-31

2.3 字段缺失程度

使用 missingno库 可视化数据集的字段缺失程度,

import missingno as ms


可以看到 classslocwork_loc 这几个字段缺失较多, 而其余字段缺失程度很轻。


