相关推文

推荐 | 如何处理远超电脑内存的csv文件



一、数据集概况

- 数据集名:招聘数据集
- 采集时间:2018.7
- 数据来源:58同城、智联招聘
- 记录数: 1701992

百度网盘链接: https://pan.baidu.com/s/1arYXcrexLW__SFF5AbjAaA?pwd=sfg5 提取码: sfg5 

声明

仅供科研使用,大家可以用来练习Pandas

该数据集是有偏的, 不太适合做研究。 如果你想用这个数据集做研究, 拿去不谢,但不要加我微信提问呀!!我知道的都在推文里!!



二、Pandas练习

2.1 读取

import pandas as pd

df = pd.read_csv('2018.7招聘数据.csv.gz', compression='gzip')

#使用bandizip或winrar解压gz,得到csv
#df = pd.read_csv('2018.7招聘数据.csv')
df.head()


记录数

len(df)

Run

1701992

2.2 省份

不同省份的记录数

df['省份'].value_counts()

Run

省份
北京市         410142
上海市         364047
河南省         156374
福建省         120816
广东省         101390
湖北省          63507
河北省          57152
江苏省          52360
四川省          51849
山东省          46956
重庆市          43153
湖南省          41438
陕西省          32108
浙江省          31838
黑龙江省         20466
贵州省          17837
辽宁省          15015
海南省          14412
云南省          13542
广西壮族自治区      12842
吉林省          11502
江西省           9638
新疆维吾尔自治区      5071
天津市           3681
安徽省           3547
山西省           1308
Name: count, dtype: int64

2.3 学历

不同学历的记录数

df['学历'].value_counts()

Run

学历
学历不限    999542
大专      286629
高中      123481
中专      100423
不限       84206
本科       83400
中技       10810
技校        6736
硕士        6151
博士         613
Name: count, dtype: int64

筛选出需要博士学历的记录

df[df['学历']=='博士']


2.4 岗位描述

2.4.1 文本长度

岗位描述文本长度

df['岗位描述'].fillna('').str.len()

Run

0           974
1           457
2           731
3           430
4           348
           ... 
1701987     294
1701988    1029
1701989     322
1701990      25
1701991     377
Name: 岗位描述, Length: 1701992, dtype: int64

2.4.2 是否含某个(类)词

岗位描述是否含 抗压能力强压力大

#一个词
#df[df['岗位描述'].fillna('').str.contains('抗压能力强')].head()

#多个词用|间隔
df[df['岗位描述'].fillna('').str.contains('抗压能力强|压力大')].head()

Run


岗位描述含 抗压能力强|压力大 的工作占比

print('压力占比', df['岗位描述'].fillna('').str.contains('抗压能力强|压力大').sum()/ len(df))

print('轻松占比', df['岗位描述'].fillna('').str.contains('工作轻松|压力小').sum()/ len(df))

Run

压力占比 0.012797357449388716
轻松占比 0.018608195573187183

三、获取数据

百度网盘链接: https://pan.baidu.com/s/1arYXcrexLW__SFF5AbjAaA?pwd=sfg5 提取码: sfg5 

声明

仅供科研使用,大家可以用来练习Pandas**。

该数据集是有偏的, 不太适合做研究。 如果你想用这个数据集做研究, 拿去不谢,但不要加我微信提问呀!!我知道的都在推文里!!



广而告之