一、数据集
1.1 概况
数据来源: 全国中小企业股份转让系统(https://www.neeq.com.cn/)
覆盖时间: 2002-04-02 ~ 2025-06-13
年报数量: 82728
累积挂牌数量: 14556
数据集体积: 152G
文件格式: pdf、txt、csv(csv是一个汇总文件,方便数据分析)
csv所含字段:
- code
- year
- text
声明: 科研用途; 如有问题, 请加微信372335839,备注「姓名-学校-专业」
1.2 声明
科研用途;如有问题, 请加微信372335839,备注「姓名-学校-专业」
二、查看数据
三板年报.csv.gz 是一个汇总的 csv 文件,特别适合进行数据分析。 解压后大概 15G, 如果你的电脑内存小于32G, 推荐阅读 | 如何处理远超电脑内存的csv文件
2.1 读取数据
import pandas as pd
df = pd.read_csv('三板年报.csv.gz', compression='gzip')
df
2.2 记录数
len(df)
Run
82728
2.3 累计挂牌企业数量
累计挂牌企业数量
df['code'].nunique()
Run
14556
2.4 日期范围
数据集覆盖的日期范围
df['date'] = pd.to_datetime(df['date'])
#年报发布日期
print(df['date'].min())
print(df['date'].max())
Run
2002-04-02 00:00:00
2025-06-13 00:00:00
2.5 年度记录数
from plotnine import *
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
#文泉驿微米黑.ttf位于代码同文件夹
font_prop = FontProperties(fname='文泉驿微米黑.ttf')
data = df['year'].value_counts().reset_index()
data['year'] = data['year'].astype('category')
(
ggplot(data, aes(x='year', y='count'))
+geom_col()
+geom_text(aes(label='count'), data=data, va='bottom', color='grey', size=10)
+theme(figure_size=(10, 6),
text = element_text(family = font_prop.get_name()),
plot_title = element_text(family = font_prop.get_name(), size=14)
)
+labs(title='三板年报发布数量',
x = '会计年度',
y = '报告数')
)
三、相关内容
想用 python 对 csv、xlsx 进行分析, 要学会尽量用 pandas 写代码。 以下是近期 pandas 的一些处理推文免费教程, 感兴趣的可以进去浏览浏览。
- 推荐阅读 | 如何处理远超电脑内存的csv文件
- 数据集 | 2001-2024年A股上市公司年报&管理层讨论与分析
- 词向量 | 使用MD&A2001-2024语料训练Word2Vec模型
- 数据集 | 港股年报文本数据集(2007 ~ 2025.06)
- 数据集 | 美股年报10-K、20-F数据(2000-2023.12)