一、数据集概况

数据名称: 港股年报
数据来源: 披露易(https://www1.hkexnews.hk/)
报告类型: 中(英)文年报
公司数量: 2671
报告数量: 27172
会计年度: 2007 ~ 2023
报告发布日期: 2007-01-08 ~ 2023-12-22
数据类型: pdf、txt、csv(csv是对所有txt的汇总文件)
数据体积: 257G

1.1 声明

科研用途;需要的请加微信 372335839, 备注「姓名-学校-专业-港股年报」。


1.2 数据集截图


1.3 数据来源

数据整理自 披露易 https://www1.hkexnews.hk

https://www1.hkexnews.hk/search/titlesearch.xhtml?lang=zh



二、PDF、TXT

2.1 读取TXT

text = open('港股年报中文TXT/09985_2022_衛龍_2022年年報_27-04-2023.txt').read()
text[:500]

Run

'(Incorporated in the Cayman Islands with Limited Liability)\n(於開曼群島註冊成立的有限公司)\nStock code 股份代號 : 09985.HK\nANNUAL\nREPORT\n2022\n年報 2022\nANNUAL REPORT\n年報Contents 2 Company Profile\n公司簡介\n目錄\n3 Definitions\n釋義\n6 Corporate Information\n公司資料\n8 Financial Overview\n財務概覽\n10 Chairman’s Statement\n主席報告\n14 Management Discussion and Analysis\n管理層討論與分析\n33 Corporate Governance Report\n企業管治報告\n57 Biographies of Directors and Senior Management\n董事及高級管理人員履歷\n66 Report of the Directors\n董事會報告\n90 Independent Auditor’s Report\n獨立核數師'

2.2 PDF

2.2.1 安装pdfdocx

打开命令行(cmd), 执行安装命令

pip install pdfdocx

2.2.2 读取pdf

from pdfdocx import read_pdf

text = read_pdf('港股年报中文PDF/09990_2022_祖龍娛樂_2022年度報告_24-04-2023.PDF')
text[:500]

Run

'2022\n2022\n年\n報\nANNUAL REPORT \n(Incorporated in the Cayman Islands with limited liability)\n( 於開曼群島註冊成立的有限公司 )\nStock Code 股份代號 : 9990\n祖龍娛樂有限公司\nArchosaur Games Inc.\n \n頁次\n釋義 \n2\n公司資料 \n9\n財務概要 \n11\n主席致辭 \n13\n財務表現摘要 \n18\n管理層討論與分析 \n19\n董事會報告 \n32\n董事及高級管理層履歷詳情 \n61\n企業管治報告 \n66\n獨立核數師報告 \n79\n綜合損益表 \n85\n綜合全面收益表 \n86\n綜合資產負債表 \n87\n綜合權益變動表 \n89\n綜合現金流量表 \n91\n綜合財務報表附註 \n93\n目錄\n祖龙娛樂有限公司  年度報告 2022\n02\n釋義\n於本年報內,除文義另有所指外,下列詞彙具有以下涵義:\n「採納日期」\n指\n2021年2月5日,即股東於本公司在2021年2月5日(星期五)舉行的股東\n特別大會上採納購股權計劃的日期\n「修訂日期」\n指\n2022年12月22日,即購股權計劃的修訂獲股東在本公司於'



三、 繁体2简体

港股年报 PDF 和 TXT 内容均为繁体字未做处理, 后续如果用 Python 做文本分析, 可以使用 opencc-python 处理中英文

3.1 安装

pip3 install opencc-python-reimplemented

3.2 转换语法

from opencc import OpenCC
cc = OpenCC('t2s')  # 繁体2简体

text = '開放中文轉換'
cc.convert(text)

Run

开放中文转换



四、CSV

csv是对港股中(英)文TXT的汇总,且已对中文进行了繁体转简体处理。

4.1 读取

csv是对所有 txt 的汇总文件, 如果电脑内存16G +, 可直接读取。 港股中文年报.csv.gz(2.69G,解压后大概8.8G)

import pandas as pd

cdf = pd.read_csv('港股中文年报.csv.gz')
cdf



如果电脑内存小于16G, 可参考 代码 | 如何处理远超电脑内存的csv文件

import pandas as pd

#只读取5行
cdf2 = pd.read_csv('港股中文年报.csv.gz', 
                  compression='gzip', 
                  nrows=5)

4.2 记录数

len(cdf)

Run

27170

4.3 公司数量

cdf['code'].nunique()

Run

2670

4.4 会计年度

数据集覆盖的会计年度主要集中在 2007 ~ 2023,但2001 ~ 2006也会有少量记录。

sorted(cdf.year.unique())

Run

[2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023]

cdf[cdf['year']==2001]

cdf[cdf['year']==2003]

cdf[cdf['year']==2006]

cdf[cdf['year']==2007]


4.5 发布日期

港股年报报告发布日期

cdf['pubdate'] = pd.to_datetime(cdf['pubdate'])

print(cdf['pubdate'].min())
print(cdf['pubdate'].max())

Run

2007-01-08 00:00:00
2023-12-22 00:00:00


五、相关内容



广而告之