一、数据集介绍

数据集名称: 中国基金年度报告数据集
基金数量: 12113
会计年度: 1998 ~ 2023
数据源: http://eid.csrc.gov.cn/fund/disclose/index.html
数据格式: pdf、csv(46196个pdf汇总到一个csv中)
获取: 1000元;如购买,请加微信 372335839,  备注「姓名-学校-专业」



字段

1998 ~ 2023年基金年报的字段有

  • 会计年度year
  • 代码code
  • 基金简称name
  • 基金年度报告文本text


二、读取数据

import pandas as pd

df = pd.read_csv('基金年报.csv.gz', compression='gzip')
df



三、可视化

基金数

df.code.astype(str).nunique()

Run

12113

from plotnine import *
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties

#文泉驿微米黑.ttf位于代码同文件夹
font_prop = FontProperties(fname='文泉驿微米黑.ttf') 

volumes = []
for year in range(1998, 2024):
    record_num = len(df[df.year==year])
    volumes.append(record_num)
data = {"year": range(1998, 2024),
        "volume": volumes}
data = pd.DataFrame(data)

(
    ggplot(data,  aes(x='year', y='volume'))
    +geom_bar(stat='identity')
    +labs(title='中国基金年度报告数量(1998-2024.6)',
          x = '年度', 
          y = '报告数')
    +geom_text(aes(label='volume'),  # 添加数据标签
               va='bottom',           # 垂直对齐方式为底部(即在柱子顶部)
               size=8,                # 设置字体大小
               format_string='{}')     # 格式化字符串
    +theme(figure_size=(10, 6),
           text = element_text(family = font_prop.get_name(), size=14), 
           plot_title = element_text(family = font_prop.get_name(), size=18)
          )
    +scale_x_continuous(breaks=range(1998, 2024, 5)) 

)



四、获取

1000元;如购买,请加微信 372335839, 备注「姓名-学校-专业」



相关内容