{
"cells": [
{
"cell_type": "markdown",
"id": "32eaa36a",
"metadata": {},
"source": [
"\n",
"\n",
"## 一、高管数据集\n",
"\n",
"\n",
"\n",
"
\n",
"\n",
"\n",
"### 1.1 介绍\n",
"[数据集 | 90w条中国上市公司高管数据](https://textdata.cn/blog/2022-11-25-senior-manager-resume-dataset/)\n",
"\n",
"90w 条中国上市公司高管简历,数据源-新浪财经,统计的日期范围**1990-2021**年。\n",
" \n",
" \n",
"### 1.2 字段\n",
"数据集的字段含,大多是从「个人简历」中计算衍生出来的。\n",
"\n",
"```\n",
"- ID\n",
"- 姓名\n",
"- 证券代码\n",
"- 统计截止日期\n",
"- 个人简历\n",
"- 国籍\n",
"- 籍贯\n",
"- 籍贯所在地区代码\n",
"- 出生地\n",
"- 出生地所在地区代码\n",
"- 性别\n",
"- 年龄\n",
"- 毕业院校\n",
"- 学历 1=中专及中专以下; 2=大专; 3=本科; 4=硕士研究生; 5=博士研究生; 6=其他(以其他形式公布的学历,如荣誉博士、函授等); 7=MBA/EMBA\n",
"- 专业\n",
"- 职称\n",
"- 是否领取薪酬\n",
"- 报告期报酬总额\n",
"- 年末持股数\n",
"- 是否高管团队成员\n",
"- 是否董事会成员\n",
"- 是否独立董事\n",
"- 是否兼任董事长和CEO\n",
"- 是否监事\n",
"- 具体职务\n",
"```\n",
"\n",
"\n",
"
\n",
"\n",
"### 1.3 应用价值\n",
"\n",
"这里粘贴部分应用高管数据论文\n",
"\n",
"- 何瑛,于文蕾,戴逸驰,王砚羽.高管职业经历与企业创新[J].管理世界,2019,35(11):174-192.\n",
"- 杨林,和欣,顾红芳.高管团队经验、动态能力与企业战略突变:管理自主权的调节效应[J].管理世界,2020,36(06):168-188+201+252.\n",
"- 周楷唐,麻志明,吴联生.高管学术经历与公司债务融资成本[J].经济研究,2017,52(07):169-183.\n",
"- 陆瑶,张叶青,黎波,赵浩宇.高管个人特征与公司业绩——基于机器学习的经验证据[J].管理科学学报,2020,23(02):120-140.\n",
"- 柳光强,孔高文.高管经管教育背景与企业内部薪酬差距[J].会计研究,2021,(03):110-121.\n",
"- 郑建明,孙诗璐,李金甜.高管文化背景与企业债务成本——基于劳模文化的视角[J].会计研究,2021,(03):137-145.\n",
" \n",
" \n",
"
\n",
"\n",
"## 二、代码案例\n",
"\n",
"用Python实现以下五个技术难题,主要对高管简介进行操作\n",
"\n",
"1. 读取xlsx文件(90w高管数据)\n",
"2. 简介文本中是否含指定词语(例如找出有【清华大学】求学经历的高管)\n",
"3. 大学高管数量排行榜\n",
"4. 统计文本中指定词语出现次数(例如统计每位高管内【大学】出现次数)\n",
"5. 找出每位高管的出生年份(用正则表达式)\n",
"6. 统计每位高管经历的时间点个数\n",
"...\n",
"\n",
"### 2.1 导入数据\n"
]
},
{
"cell_type": "code",
"execution_count": 1,
"id": "1bc443a4",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n", " | ID | \n", "姓名 | \n", "证券代码 | \n", "统计截止日期 | \n", "个人简历 | \n", "国籍 | \n", "籍贯 | \n", "籍贯所在地区代码 | \n", "出生地 | \n", "出生地所在地区代码 | \n", "... | \n", "是否领取薪酬 | \n", "报告期报酬总额 | \n", "津贴 | \n", "年末持股数 | \n", "是否高管团队成员 | \n", "是否董事会成员 | \n", "是否独立董事 | \n", "是否兼任董事长和CEO | \n", "是否监事 | \n", "具体职务 | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "30276026 | \n", "赵勇 | \n", "605169 | \n", "2020-10-30 | \n", "赵勇先生,副总经理,中国国籍,无境外永久居留权,1969年6月出生,大专学历;曾任新疆生产建... | \n", "中华人民共和国 | \n", "北京市 | \n", "110000 | \n", "北京市 | \n", "110000 | \n", "... | \n", "Y | \n", "269600.0 | \n", "NaN | \n", "NaN | \n", "1 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "副总经理 | \n", "
1 | \n", "3056116 | \n", "林菁 | \n", "689009 | \n", "2020-10-29 | \n", "林菁先生,1965年3月出生,中国国籍,无境外永久居留权,对外经济贸易大学工商管理(MBA)... | \n", "中华人民共和国 | \n", "北京市 | \n", "110000 | \n", "北京市 | \n", "110000 | \n", "... | \n", "N | \n", "166300.0 | \n", "166300.0 | \n", "NaN | \n", "0 | \n", "1 | \n", "1 | \n", "0 | \n", "0 | \n", "独立董事 | \n", "
2 | \n", "30568910 | \n", "信意安 | \n", "2995 | \n", "2020-08-05 | \n", "信意安,男,1972年出生,中国国籍,无境外永久居留权,专科学历,现任发行人董事长兼总经理,... | \n", "中华人民共和国 | \n", "北京市 | \n", "110000 | \n", "北京市 | \n", "110000 | \n", "... | \n", "Y | \n", "950000.0 | \n", "NaN | \n", "22509250.0 | \n", "1 | \n", "1 | \n", "0 | \n", "1 | \n", "0 | \n", "董事长,非独立董事,总经理 | \n", "
3 | \n", "30101636 | \n", "赵炳弟 | \n", "688561 | \n", "2020-07-22 | \n", "赵炳弟先生,独立董事,生于1960年10月,中国籍,无境外永久居留权,研究生学历,毕业于中央... | \n", "NaN | \n", "北京市 | \n", "110000 | \n", "北京市 | \n", "110000 | \n", "... | \n", "N | \n", "105000.0 | \n", "105000.0 | \n", "NaN | \n", "0 | \n", "1 | \n", "1 | \n", "0 | \n", "0 | \n", "独立董事 | \n", "
4 | \n", "30138872 | \n", "张金 | \n", "688377 | \n", "2020-07-08 | \n", "张金先生:中国国籍,1962年出生,无境外永久居留权,本科学历,高级工程师,2009年2月被... | \n", "中华人民共和国 | \n", "北京市 | \n", "110000 | \n", "北京市 | \n", "110000 | \n", "... | \n", "N | \n", "60000.0 | \n", "60000.0 | \n", "NaN | \n", "0 | \n", "1 | \n", "1 | \n", "0 | \n", "0 | \n", "独立董事 | \n", "
5 rows × 26 columns
\n", "