一、数据集概况

数据来源:沪深A股非金融类上市公司披露的委托贷款公告
时间跨度:2007—2022年
所需指标
   - 贷款提供方和接收方名称
   - 借贷双方股权关联关系
   - 委托贷款金额
   - 利率
   - 贷款期限等借贷条款信息
  
下载链接: 链接: https://pan.baidu.com/s/1lqI-RuPmsYBAQ8tS2rB34Q?pwd=wir4 提取码: wir4
本文声明: 科研用途; 如有问题, 请加微信372335839,备注「姓名-学校-专业」

数据集不大,只有2297条记录。

import os

os.listdir()

Run

['raw_data',
 '委托贷款.csv',
 'img',
 '委托贷款(含有hash_id,跟pdf文件名一致).csv',
 '委托贷款.ipynb',
 '数据说明.txt']



二、导入数据

  1. 委托贷款.csv
  2. 委托贷款(含有hash_id,跟pdf文件名一致).csv 比1多了hash_id

两个csv均整理自raw_data, 把很多pdf汇总到csv中。 这两个csv数据差异不大,这里只读取 「委托贷款(含有hash_id,跟pdf文件名一致).csv」。

import pandas as pd

df = pd.read_csv('委托贷款(含有hash_id,跟pdf文件名一致).csv')
df.head()


#记录数
len(df)

Run

2297

#不同「公告分类」的记录数
pd.DataFrame(df['公告分类'].value_counts())


#「公告年份」的记录数
pd.DataFrame(df['公告年份'].value_counts().sort_index())


#公告的文本长度
df['公告内容'].str.len()

Run

    0        466.0
    1       1026.0
    2       2938.0
    3       3035.0
    4        921.0
             ...  
    2292     456.0
    2293    1116.0
    2294     477.0
    2295    1900.0
    2296    2950.0
    Name: 公告内容, Length: 2297, dtype: float64