一、消费者金融投诉数据集

1.1 概况

数据集:  消费者金融投诉数据集
数据来源:  https://cfpb.github.io/api/ccdb/
记录数两:  7978798
覆盖日期:  2011-12-01 ~ 2025-03-03
数据格式:  csv
数据体积:  5 G
所含字段:  标题、投诉时间、投诉问题、投诉对象、消费者地址、公司回应等

1.2 字段介绍

- Date_Received       收到投诉的日期
- Product             投诉的金融产品或服务类型(信用报告、债务催收、抵押贷款等)
- Sub_Product         投诉的子产品(更具体的类别)
- Issue               投诉问题或原因
- Sub_Iissue          投诉子问题(进一步详细说明问题)
- Complaint_Narrative 投诉内容(自由格式文本)
- Comp_Public_Resp    公司针对消费者投诉提供的公开回应
- Company             投诉公司名称
- State               消费者居住地
- Zip                 消费者的所在地邮政编码
- Tags                与投诉相关的额外标签或分类
- Consent_Provided    消费者是否同意其投诉信息被收集、处理或公开。
- Submitted_Via       投诉渠道(例如,网络、转介)
- Date_Sent_to_Comp   投诉转交给公司的日期
- Comp_Resp_to_Cons   公司对消费者的投诉的回应。
- Timely_Resp         及时响应,表明该公司是否及时回应了投诉。
- Disputed            消费者异议;表明消费者是否对公司的回应提出了异议
- Complaint_ID        投诉ID

1.3 获取数据

-  https://files.consumerfinance.gov/ccdb/complaints.csv.zip
-  备用链接: https://pan.baidu.com/s/1uvhi-waLwAM8yOPzktBnzQ?pwd=kwng 提取码: kwng



二、查看数据

2.1 读取数据

import pandas as pd

df = pd.read_csv('consumer_finance_complaints.csv.gz', compression='gzip')
#或  解压得到csv再读取
#df = pd.read_csv('consumer_finance_complaints.csv')

print('记录条数:', len(df))
df

Run

记录条数: 7978798


2.2 覆盖日期

df['Date_Received'] = pd.to_datetime(df['Date_Received'])
print('覆盖日期:', df['Date_Received'].min().date(), '~', df['Date_Received'].max().date())

Run

覆盖日期: 2011-12-01 ~ 2025-03-03



2.3 字段缺失程度

使用 missingno库 可视化数据集的字段缺失程度,

import missingno as ms
ms.matrix(df)

可以看到 Complaint_NarrativeComp_Public_RespTagsConsent_providedDisputed 这几个字段缺失较多, 而其余字段缺失程度很轻甚至没有。



三、获取数据

-  https://files.consumerfinance.gov/ccdb/complaints.csv.zip
-  备用链接: https://pan.baidu.com/s/1uvhi-waLwAM8yOPzktBnzQ?pwd=kwng 提取码: kwng


精选内容