一、数据集

1.1 概况

数据来源: 全国中小企业股份转让系统(https://www.neeq.com.cn/)

覆盖时间: 2002-04-02 ~ 2025-06-13

年报数量: 82728

累积挂牌数量: 14556

数据集体积: 152G

文件格式: pdf、txt、csv(csv是一个汇总文件,方便数据分析)
   
csv所含字段:
 - code
 - year
 - text
 
声明: 科研用途; 如有问题, 请加微信372335839,备注「姓名-学校-专业」



1.2 声明

科研用途;如有问题, 请加微信372335839,备注「姓名-学校-专业」

二、查看数据

三板年报.csv.gz 是一个汇总的 csv 文件,特别适合进行数据分析。 解压后大概 15G, 如果你的电脑内存小于32G, 推荐阅读 | 如何处理远超电脑内存的csv文件

2.1 读取数据

import pandas as pd

df = pd.read_csv('三板年报.csv.gz', compression='gzip')
df


2.2 记录数


len(df)

Run

82728

2.3 累计挂牌企业数量

累计挂牌企业数量

df['code'].nunique()

Run

14556

2.4 日期范围

数据集覆盖的日期范围

df['date'] = pd.to_datetime(df['date'])

#年报发布日期
print(df['date'].min())
print(df['date'].max())

Run

2002-04-02 00:00:00
2025-06-13 00:00:00

2.5 年度记录数

from plotnine import *
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties

#文泉驿微米黑.ttf位于代码同文件夹
font_prop = FontProperties(fname='文泉驿微米黑.ttf') 

data = df['year'].value_counts().reset_index()
data['year'] = data['year'].astype('category')

(
    ggplot(data,  aes(x='year', y='count'))
    +geom_col()
    +geom_text(aes(label='count'), data=data, va='bottom', color='grey', size=10)
    +theme(figure_size=(10, 6),
           text = element_text(family = font_prop.get_name()), 
           plot_title = element_text(family = font_prop.get_name(), size=14)
          )
    +labs(title='三板年报发布数量',
          x = '会计年度', 
          y = '报告数')
)



三、相关内容

想用 python 对 csv、xlsx 进行分析, 要学会尽量用 pandas 写代码。 以下是近期 pandas 的一些处理推文免费教程, 感兴趣的可以进去浏览浏览。