一、数据集概况
数据源: 上海证券交易所(使用shreport库进行下载)
公司数: 1486
记录数: 71149
【声明】
科研用途,仅供展示;如有任何问题,加微信372335839,备注「姓名-学校-专业」
1.1 截图
1.2 下载说明
所有pdf均来自上海证券交易所官网,使用shreport库进行的下载。
二、实验代码
2.1 报告信息汇总文件
summary.xlsx内字段
- company 上市公司企业名
- code 股票代码
- type 报告类型
- year 报告年份
- date 报告发布日期
- pdf 报告pdf文件下载链接
import pandas as pd
from pathlib import Path
#报告汇总文件summary.xlsx
df = pd.read_excel('summary.xlsx')
df.head()
一共有报告71126份
len(df)
71149
一共有上市公司1486家
len(df['company'].unique())
1486
2.2 summary文件夹
summary文件夹内是每家公司的报告披露情况
df1 = pd.read_excel('summary/600000.xlsx')
df1.head()
浦发银行一共有75份定期报告
len(df1)
75
2.3 reports文件夹
reports文件夹存放着以各各公司股票代码命名的文件夹
文件夹内是该公司所有定期报告
2.4 读取pdf报告
可使用pdfdocx库读取pdf,
pdfdocx文档链接 https://github.com/thunderhit/pdfdocx
from pdfdocx import read_pdf
p_text = read_pdf('reports/600000/600000_2012_1.pdf')
p_text
Run
上海浦东发展银行股份有限公司 \n\n2012 年第一季度报告 \n\n \n\n \n\n§1 重要提示 \n\n1.1 公司董事会、监事会及其董事、监事、高级管理人员保证本报告所载资料不存在任何虚假记载、\n\n误导性陈述或者重大遗漏,并对其内容的真实性、准确性和完整性承担个别及连带责任。\n\n1.2 公司于 2012 年 4 月 26 日以通讯表决的方式召开第四届董事会第二十六次会议审议通过本报告,\n\n1.4 公司董事长、行长吉晓辉、财务总监刘信义及财务机构负责人傅能声明:保证本季度报告中财务\n\n公司全体董事出席董事会会议并行使表决权。\n\n1.3 公司第一季度财务报告未经审计。\n\n报告的真实、完整。\n\n \n§2 公司基本情况 \n\n2.1 主要会计数据及财务指标 \n\n本报告期末 \n\n上年度期末 \n\n币种:人民币 \n\n本报告期末比上年\n度期末增减(%) \n\n总资产(千元) \n\n归属于上市公司股东的所有者权益(千元) \n\n2,804,646,567\n\n157,055,724\n\n2,684,693,689 \n148,891,235 \n\n归属于上市公司股东的每股净资产(元) \n\n8.420\n\n7.982 \n\n4.47 \n5.48 \n5.49 \n\n经营活动产生的现金流量净额(千元) \n\n每股经营活动产生的现金流\n\n \n\n \n \n母公司现金流量表 \n \n2012 年 1—3 月 \n \n编制单位: 上海浦东发展银行股份有限公司....
三、数据下载
链接:https://pan.baidu.com/s/14PI6MbxunFQ3fZOfR33zkw 密码:osoi
科研用途,仅供展示;如有任何问题,加微信372335839,备注「姓名-学校-专业」