一、数据集介绍
2001-2023年A股年报数据集,含 4 个文件,约 15G。
- 管理层讨论与分析txt.zip
- 年报txt.zip
- A01-23.csv.gz
- mda01-23.csv.gz
注意
- zip文件夹是原始数据, 解压后内部为 txt 文件。
- gz文件为汇总数据, 解压后是csv文件。
声明
科研用途;需要的请加微信 372335839, 备注「姓名-学校-专业」
二、年报数据
2001-2023年年报数据。数据中只有year、code、text三个字段, 如果想增加诸如公司简称、行业等信息, 可以使用 数据集 | A股上市公司基本信息 进行并表。
import pandas as pd
anual_report_df = pd.read_csv('A01-23.csv.gz', compression='gzip')
anual_report_df
年报记录数
len(anual_report_df)
Run
61980
上市公司总数
anual_report_df.code.nunique()
Run
5629
三、MD&A数据
2001-2023年MD&A数据, 数据中只有year、code、text三个字段, 如果想增加诸如公司简称、行业等信息, 可以使用 数据集 | A股上市公司基本信息 进行并表。
mda_df = pd.read_csv('mda01-23.csv.gz', compression='gzip')
mda_df
len(mda_df)
Run
60079
上市公司总数
mda_df.code.nunique()
Run
5606
四、说明
从代码运行发现, md&a记录量少于年报记录量。这是由于 mda01-23.csv.gz 是从 A01-23.csv.gz 中生成的, 由于上市公司的年报不是一套模板生成的, 每个公司模板不同,甚至每个公司前后年度报告的排版也会发生变化。在编程提取md&a的过程中, 会因排版规则不能穷举, 导致md&a样本量略微小于年报的样本量。 提取md&a的工具是 大邓开发的cntext2.1.1库 ,使用的内置函数 mda=ct.extract_mda(text)
。
我们这里不展示提取过程,仅展示说明md&a记录量与年报记录量之比。
anual_report_df['year'] = anual_report_df['year'].astype(int)
mda_df['year'] = mda_df['year'].astype(int)
print('查看每年mda记录量与年报记录量之比')
for year in range(2001, 2024):
mda_record_num = len(mda_df[mda_df.year==year])
anual_report_record_num = len(anual_report_df[anual_report_df.year==year])
print(f'{year} :', mda_record_num/anual_report_record_num)
Run
查看每年mda记录量与年报记录量之比
2001 : 0.6546700942587832
2002 : 0.8569105691056911
2003 : 0.9287925696594427
2004 : 0.9550398839738942
2005 : 0.9707602339181286
2006 : 0.9745879120879121
2007 : 0.9821882951653944
2008 : 0.9846153846153847
2009 : 0.9859075535512966
2010 : 0.9868544600938968
2011 : 0.9894291754756871
2012 : 0.9891696750902527
2013 : 0.9901458415451321
2014 : 0.9905767056162834
2015 : 0.9922616953921913
2016 : 0.9926681542875359
2017 : 0.9934528892684316
2018 : 0.9892384105960265
2019 : 0.9639227642276422
2020 : 0.9642857142857143
2021 : 0.9310064935064936
2022 : 0.9838492597577388
2023 : 0.9901137847416527
五、相关内容
- 数据集 | 港股年报文本数据集(2007 ~ 2023.12)
- 数据集(付费) | 三板上市公司年报2002-2023.12
- 数据集 | 美股年报10-K、20-F数据(2000-2023.12)
- 词向量(付费) | 使用MD&A2001-2022语料训练Word2Vec模型
- 中国工业经济 | MD&A信息含量指标构建代码实现
- 金融研究 | 使用Python构建「关键审计事项信息含量」
- 中国管理科学 | 使用业绩说明会文本数据测量上市公司前瞻性信息
- 代码 | 使用 MD&A文本测量「企业不确定性感知FEPU」
- 数据集 | A股上市公司基本信息