2亿条工商注册信息
341个地市, 2亿条工商注册信息, 网盘压缩文件夹体积17.6G , 日期涵盖 建国前~2022.3.28, 但大多数注册时间为近30年改革开放后。
解压后截图如下
任意csv文件的字段包括
- 企业组织机构代码
- 企业名称
- 注册资本
- 实缴资本
- 纳税人识别号
- 法定代表人
- 企业状态
- 所属行业
- 统一社会信用代码
- 工商注册号
- 组织机构代码
- 登记机关
- 注册日期
- 核准日期
- 企业类型
- 经营期限
- 注册所在地
- 地区编码
- 详细地址
- 经营范围
- 参保人数
- 企业电话(脱敏)
- 企业座机(脱敏)
- 企业邮箱(脱敏)
数据集已经脱敏处理, 避免分享过程出现违规(法)问题。
地市
341个地市
import os
os.listdir()
Run
[
'北京市.csv',
'上海市.csv',
'南京市.csv',
...
'重庆市.csv',
]
#341个地级市工商信息
len(os.listdir())
Run
341
读取
读取 石家庄市、长沙市、杭州市
import pandas as pd
sjz_df = pd.read_csv('石家庄市.csv', encoding='utf-8', low_memory=False)
cs_df = pd.read_csv('长沙市.csv', encoding='utf-8', low_memory=False)
hz_df = pd.read_csv('杭州市.csv', encoding='utf-8', low_memory=False)
sjz_df.head()
石家庄市.csv 企业记录数
len(sjz_df)
Run
1131028
含有的字段有
sjz_df.columns
Index(['企业组织机构代码', '企业名称', '注册资本', '实缴资本', '纳税人识别号', '法定代表人', '企业状态', '所属行业',
'统一社会信用代码', '工商注册号', '组织机构代码', '登记机关', '注册日期', '核准日期', '企业类型', '经营期限',
'注册所在地', '地区编码', '详细地址', '经营范围', '参保人数', '企业电话', '企业座机', '企业邮箱'],
dtype='object')
sjz_df['注册日期'] = pd.to_datetime(sjz_df['注册日期'])
#石家庄数据集日期范围
print(sjz_df['注册日期'].min())
print(sjz_df['注册日期'].max())
Run
1917-01-30 00:00:00
2022-03-28 00:00:00
查看注册日期为1917-01-30的信息
import datetime
sjz_df[sjz_df['注册日期']==datetime.datetime(year=1917, month=1, day=30)].to_dict()
Run
{'企业组织机构代码': {913555: '81130000MC0611518K'},
'企业名称': {913555: '中国铁路工会石家庄站委员会'},
'注册资本': {913555: '276.5万元人民币'},
'实缴资本': {913555: '-'},
'纳税人识别号': {913555: '81130000MC0611518K'},
'法定代表人': {913555: '韩海峰'},
'企业状态': {913555: '暂无'},
'所属行业': {913555: '公共管理、社会保障和社会组织'},
'统一社会信用代码': {913555: '81130000MC0611518K'},
'工商注册号': {913555: nan},
'组织机构代码': {913555: '-'},
'登记机关': {913555: '河北省总工会'},
'注册日期': {913555: Timestamp('1917-01-30 00:00:00')},
'核准日期': {913555: '1949-10-01'},
'企业类型': {913555: '-'},
'经营期限': {913555: '2019-04-01 至 2022-02-09'},
'注册所在地': {913555: nan},
'地区编码': {913555: '130105'},
'详细地址': {913555: '石家庄市新华区大桥路2号'},
'经营范围': {913555: '-'},
'参保人数': {913555: 478.0},
'企业电话': {913555: nan},
'企业座机': {913555: nan},
'企业邮箱': {913555: nan}}
可视化
绘制一个1992-2019年的注册量折线图
import matplotlib.pyplot as plt
import matplotlib
import matplotlib_inline
matplotlib_inline.backend_inline.set_matplotlib_formats('png', 'svg')
import scienceplots
import platform
plt.style.use(['science', 'no-latex', 'cjk-sc-font'])
system = platform.system() # 获取操作系统类型
if system == 'Windows':
font = {'family': 'SimHei'}
elif system == 'Darwin':
font = {'family': 'Arial Unicode MS'}
else:
font = {'family': 'sans-serif'}
matplotlib.rc('font', **font) # 设置全局字体
plt.figure(figsize=(12, 8))
years = [str(y) for y in range(1992, 2020)]
sjz_df['注册日期'].str.slice(0, 4).value_counts(ascending=True)[years].plot(label='石家庄')
cs_df['注册日期'].str.slice(0, 4).value_counts(ascending=True)[years].plot(label='长沙')
hz_df['注册日期'].str.slice(0, 4).value_counts(ascending=True)[years].plot(label='杭州')
plt.title('工商企业注册量1992-2019年', fontsize=16, color='black', ha='center')
plt.xlabel('年份')
plt.ylabel('注册量')
plt.legend(loc='upper right')
plt.show()
在2016年之前,长沙和石家庄注册量相当。但是自2016年后,长沙甩开石家庄, 不愧是新一线城市。
数据集获取
内容为付费数据集, 200元, 加微信 372335839, 备注「姓名-学校-专业」