一、数据集介绍

2001-2022年A股年报数据集,含 4 个文件,约 11G。

- 管理层讨论与分析txt.zip
- 年报txt.zip
- A01-22.csv.gz
- mda01-22.csv.gz


注意

  • zip文件夹是原始数据, 解压后内部为 txt 文件。
  • gz文件为汇总数据, 解压后是csv文件。



二、年报数据

2001-2022年年报数据。数据中只有year、code、text三个字段, 如果想增加诸如公司简称、行业等信息, 可以使用 数据集 | A股上市公司基本信息 进行并表。

import pandas as pd

anual_report_df = pd.read_csv('A01-22.csv.gz', compression='gzip')
anual_report_df


年报记录数

len(anual_report_df)

Run

55856

上市公司总数

anual_report_df.code.nunique()

Run

5357


三、MD&A数据

2001-2022年MD&A数据, 数据中只有year、code、text三个字段, 如果想增加诸如公司简称、行业等信息, 可以使用 数据集 | A股上市公司基本信息 进行并表。

mda_df = pd.read_csv('mda01-22.csv.gz', compression='gzip')
mda_df.head()


len(mda_df)

Run

55439

上市公司总数

mda_df.code.nunique()

Run

5355



四、相关内容



四、获取数据

数据集 100 元,加微信 372335839, 备注「姓名-学校-专业」



广而告之