一、数据集介绍
2001-2022年A股年报数据集,含 4 个文件,约 11G。
- 管理层讨论与分析txt.zip
- 年报txt.zip
- A01-22.csv.gz
- mda01-22.csv.gz
注意
- zip文件夹是原始数据, 解压后内部为 txt 文件。
- gz文件为汇总数据, 解压后是csv文件。
二、年报数据
2001-2022年年报数据。数据中只有year、code、text三个字段, 如果想增加诸如公司简称、行业等信息, 可以使用 数据集 | A股上市公司基本信息 进行并表。
import pandas as pd
anual_report_df = pd.read_csv('A01-22.csv.gz', compression='gzip')
anual_report_df
年报记录数
len(anual_report_df)
Run
55856
上市公司总数
anual_report_df.code.nunique()
Run
5357
三、MD&A数据
2001-2022年MD&A数据, 数据中只有year、code、text三个字段, 如果想增加诸如公司简称、行业等信息, 可以使用 数据集 | A股上市公司基本信息 进行并表。
mda_df = pd.read_csv('mda01-22.csv.gz', compression='gzip')
mda_df.head()
len(mda_df)
Run
55439
上市公司总数
mda_df.code.nunique()
Run
5355
四、相关内容
- 数据集 | 港股年报文本数据集(2007 ~ 2023.12)
- 数据集(付费) | 三板上市公司年报2002-2023.12
- 数据集 | 美股年报10-K、20-F数据(2000-2023.12)
- 词向量(付费) | 使用MD&A2001-2022语料训练Word2Vec模型
- 中国工业经济 | MD&A信息含量指标构建代码实现
- 金融研究 | 使用Python构建「关键审计事项信息含量」
- 中国管理科学 | 使用业绩说明会文本数据测量上市公司前瞻性信息
- 数据集 | A股上市公司基本信息
四、获取数据
数据集 100 元,加微信 372335839, 备注「姓名-学校-专业」。