一、数据集概况

- 数据来源:沪深A股非金融类上市公司披露的委托贷款公告
- 时间跨度:2007—2022年
- 所需指标
  - 贷款提供方和接收方名称
  - 借贷双方股权关联关系
  - 委托贷款金额
  - 利率
  - 贷款期限等借贷条款信息

数据集不大,只有2297条记录。

import os

os.listdir()

Run

['raw_data',
 '委托贷款.csv',
 'img',
 '委托贷款(含有hash_id,跟pdf文件名一致).csv',
 '委托贷款.ipynb',
 '数据说明.txt']



二、导入数据

  1. 委托贷款.csv
  2. 委托贷款(含有hash_id,跟pdf文件名一致).csv 比1多了hash_id

两个csv均整理自raw_data, 把很多pdf汇总到csv中。 这两个csv数据差异不大,这里只读取 「委托贷款(含有hash_id,跟pdf文件名一致).csv」。

import pandas as pd

df = pd.read_csv('委托贷款(含有hash_id,跟pdf文件名一致).csv')
df.head()


#记录数
len(df)

Run

2297

#不同「公告分类」的记录数
pd.DataFrame(df['公告分类'].value_counts())


#「公告年份」的记录数
pd.DataFrame(df['公告年份'].value_counts().sort_index())


#公告的文本长度
df['公告内容'].str.len()

Run

    0        466.0
    1       1026.0
    2       2938.0
    3       3035.0
    4        921.0
             ...  
    2292     456.0
    2293    1116.0
    2294     477.0
    2295    1900.0
    2296    2950.0
    Name: 公告内容, Length: 2297, dtype: float64



四、声明

科研用途;需要的请加微信 372335839, 备注【姓名-学校-专业】




广而告之