一、数据集

1.1 概况

数据来源: 全国中小企业股份转让系统(https://www.neeq.com.cn/)

覆盖时间: 2002-04-02 ~ 2023-12-06

年报数量: 70838

累积挂牌数量: 13884

数据集体积: 131G

文件格式: pdf、txt、csv(csv是一个汇总文件,方便数据分析)
   
    
csv所含字段:
 - code
 - year
 - text
 



1.2 声明

科研用途;需要的请加微信 372335839, 备注「姓名-学校-专业」。

二、查看数据

三板年报.csv.gz 是一个汇总的 csv 文件,特别适合进行数据分析。 解压后大概 15G, 如果你的电脑内存小于32G, 推荐阅读 | 如何处理远超电脑内存的csv文件

2.1 读取数据

import pandas as pd

df = pd.read_csv('三板年报.csv.gz', compression='gzip')
df.head()


2.2 记录数


len(df)

Run

70838

2.3 累计挂牌企业数量

累计挂牌企业数量

df['code'].nunique()

Run

13884

2.4 日期范围

数据集覆盖的日期范围

df['date'] = pd.to_datetime(df['date'])

#年报发布日期
print(df['date'].min())
print(df['date'].max())

Run

2002-04-02
2023-12-06

2.5 年度记录数

for year, year_df in df.groupby(df['date'].dt.year):
    print(year, len(year_df))

Run

2002 5
2003 6
2004 19
2005 29
2006 33
2007 48
2008 59
2009 80
2010 90
2011 107
2012 139
2013 225
2014 732
2015 2336
2016 6874
2017 10811
2018 10948
2019 9258
2020 8400
2021 6859
2022 7019
2023 6761

import matplotlib.pyplot as plt
import matplotlib
import scienceplots
import platform
import pandas as pd
import matplotlib_inline
matplotlib_inline.backend_inline.set_matplotlib_formats('png', 'svg')
import jieba
import warnings
warnings.filterwarnings('ignore')
plt.style.use(['science', 'no-latex', 'cjk-sc-font'])
system = platform.system()  # 获取操作系统类型
if system == 'Windows':
    font = {'family': 'SimHei'}
elif system == 'Darwin':
    font = {'family': 'Arial Unicode MS'}
else:
    font = {'family': 'sans-serif'}
matplotlib.rc('font', **font)  # 设置全局字体


df.groupby(df['date'].dt.year).count()['year'].plot(kind='bar', figsize=(8, 4), title='三板历年企业年报数')



三、相关内容

想用 python 对 csv、xlsx 进行分析, 要学会尽量用 pandas 写代码。 以下是近期 pandas 的一些处理推文免费教程, 感兴趣的可以进去浏览浏览。



广而告之