2亿条工商注册信息

341个地市, 2亿条工商注册信息, 网盘压缩文件夹体积17.6G , 日期涵盖 建国前~2022.3.28, 但大多数注册时间为近30年改革开放后。

解压后截图如下

任意csv文件的字段包括

  • 企业组织机构代码
  • 企业名称
  • 注册资本
  • 实缴资本
  • 纳税人识别号
  • 法定代表人
  • 企业状态
  • 所属行业
  • 统一社会信用代码
  • 工商注册号
  • 组织机构代码
  • 登记机关
  • 注册日期
  • 核准日期
  • 企业类型
  • 经营期限
  • 注册所在地
  • 地区编码
  • 详细地址
  • 经营范围
  • 参保人数
  • 企业电话(脱敏)
  • 企业座机(脱敏)
  • 企业邮箱(脱敏)

数据集已经脱敏处理, 避免分享过程出现违规(法)问题。


地市

341个地市

import os

os.listdir()

Run

 [
 '北京市.csv',
 '上海市.csv',
 '南京市.csv',
 ...
 '重庆市.csv',
  ]

#341个地级市工商信息
len(os.listdir())

Run

341


读取

读取 石家庄市、长沙市、杭州市

import pandas as pd

sjz_df = pd.read_csv('石家庄市.csv', encoding='utf-8', low_memory=False)
cs_df = pd.read_csv('长沙市.csv', encoding='utf-8', low_memory=False)
hz_df = pd.read_csv('杭州市.csv', encoding='utf-8', low_memory=False)
sjz_df.head()


石家庄市.csv 企业记录数

len(sjz_df)

Run

1131028

含有的字段有

sjz_df.columns
Index(['企业组织机构代码', '企业名称', '注册资本', '实缴资本', '纳税人识别号', '法定代表人', '企业状态', '所属行业',
       '统一社会信用代码', '工商注册号', '组织机构代码', '登记机关', '注册日期', '核准日期', '企业类型', '经营期限',
       '注册所在地', '地区编码', '详细地址', '经营范围', '参保人数', '企业电话', '企业座机', '企业邮箱'],
      dtype='object')

sjz_df['注册日期'] = pd.to_datetime(sjz_df['注册日期'])

#石家庄数据集日期范围
print(sjz_df['注册日期'].min())
print(sjz_df['注册日期'].max())

Run

1917-01-30 00:00:00
2022-03-28 00:00:00

查看注册日期为1917-01-30的信息

import datetime

sjz_df[sjz_df['注册日期']==datetime.datetime(year=1917, month=1, day=30)].to_dict()

Run

{'企业组织机构代码': {913555: '81130000MC0611518K'},
 '企业名称': {913555: '中国铁路工会石家庄站委员会'},
 '注册资本': {913555: '276.5万元人民币'},
 '实缴资本': {913555: '-'},
 '纳税人识别号': {913555: '81130000MC0611518K'},
 '法定代表人': {913555: '韩海峰'},
 '企业状态': {913555: '暂无'},
 '所属行业': {913555: '公共管理、社会保障和社会组织'},
 '统一社会信用代码': {913555: '81130000MC0611518K'},
 '工商注册号': {913555: nan},
 '组织机构代码': {913555: '-'},
 '登记机关': {913555: '河北省总工会'},
 '注册日期': {913555: Timestamp('1917-01-30 00:00:00')},
 '核准日期': {913555: '1949-10-01'},
 '企业类型': {913555: '-'},
 '经营期限': {913555: '2019-04-01 至 2022-02-09'},
 '注册所在地': {913555: nan},
 '地区编码': {913555: '130105'},
 '详细地址': {913555: '石家庄市新华区大桥路2号'},
 '经营范围': {913555: '-'},
 '参保人数': {913555: 478.0},
 '企业电话': {913555: nan},
 '企业座机': {913555: nan},
 '企业邮箱': {913555: nan}}



可视化

绘制一个1992-2019年的注册量折线图

import matplotlib.pyplot as plt
import matplotlib
import matplotlib_inline
matplotlib_inline.backend_inline.set_matplotlib_formats('png', 'svg')
import scienceplots
import platform
plt.style.use(['science', 'no-latex', 'cjk-sc-font'])
system = platform.system()  # 获取操作系统类型

if system == 'Windows':
    font = {'family': 'SimHei'}
elif system == 'Darwin':
    font = {'family': 'Arial Unicode MS'}
else:
    font = {'family': 'sans-serif'}
matplotlib.rc('font', **font)  # 设置全局字体
    
plt.figure(figsize=(12, 8))
years = [str(y) for y in range(1992, 2020)]

sjz_df['注册日期'].str.slice(0, 4).value_counts(ascending=True)[years].plot(label='石家庄')
cs_df['注册日期'].str.slice(0, 4).value_counts(ascending=True)[years].plot(label='长沙')
hz_df['注册日期'].str.slice(0, 4).value_counts(ascending=True)[years].plot(label='杭州')

plt.title('工商企业注册量1992-2019年', fontsize=16, color='black', ha='center')
plt.xlabel('年份')
plt.ylabel('注册量')
plt.legend(loc='upper right')
plt.show()    

svg

在2016年之前,长沙和石家庄注册量相当。但是自2016年后,长沙甩开石家庄, 不愧是新一线城市。


数据集获取

内容为付费数据集, 200元, 加微信 372335839, 备注「姓名-学校-专业」



广而告之