一、数据集介绍
数据集名称: 中国基金年度报告数据集
基金数量: 12113
会计年度: 1998 ~ 2023
数据源: http://eid.csrc.gov.cn/fund/disclose/index.html
数据格式: pdf、csv(46196个pdf汇总到一个csv中)
获取: 1000元;如购买,请加微信 372335839, 备注「姓名-学校-专业」
字段
1998 ~ 2023年基金年报的字段有
- 会计年度year
- 代码code
- 基金简称name
- 基金年度报告文本text
二、读取数据
import pandas as pd
df = pd.read_csv('基金年报.csv.gz', compression='gzip')
df
三、可视化
基金数
df.code.astype(str).nunique()
Run
12113
from plotnine import *
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
#文泉驿微米黑.ttf位于代码同文件夹
font_prop = FontProperties(fname='文泉驿微米黑.ttf')
volumes = []
for year in range(1998, 2024):
record_num = len(df[df.year==year])
volumes.append(record_num)
data = {"year": range(1998, 2024),
"volume": volumes}
data = pd.DataFrame(data)
(
ggplot(data, aes(x='year', y='volume'))
+geom_bar(stat='identity')
+labs(title='中国基金年度报告数量(1998-2024.6)',
x = '年度',
y = '报告数')
+geom_text(aes(label='volume'), # 添加数据标签
va='bottom', # 垂直对齐方式为底部(即在柱子顶部)
size=8, # 设置字体大小
format_string='{}') # 格式化字符串
+theme(figure_size=(10, 6),
text = element_text(family = font_prop.get_name(), size=14),
plot_title = element_text(family = font_prop.get_name(), size=18)
)
+scale_x_continuous(breaks=range(1998, 2024, 5))
)
四、获取
1000元;如购买,请加微信 372335839, 备注「姓名-学校-专业」
相关内容
- 数据集 | 港股年报文本数据集(2007 ~ 2023.12)
- 数据集(付费) | 三板上市公司年报2002-2023.12
- 数据集 | 美股年报10-K、20-F数据(2000-2023.12)
- 词向量(付费) | 使用MD&A2001-2022语料训练Word2Vec模型
- 中国工业经济 | MD&A信息含量指标构建代码实现
- 金融研究 | 使用Python构建「关键审计事项信息含量」
- 中国管理科学 | 使用业绩说明会文本数据测量上市公司前瞻性信息
- 代码 | 使用 MD&A文本测量「企业不确定性感知FEPU」
- 数据集 | A股上市公司基本信息