一、消费者金融投诉数据集
1.1 概况
数据集: 消费者金融投诉数据集
数据来源: https://cfpb.github.io/api/ccdb/
记录数两: 7978798
覆盖日期: 2011-12-01 ~ 2025-03-03
数据格式: csv
数据体积: 5 G
所含字段: 标题、投诉时间、投诉问题、投诉对象、消费者地址、公司回应等
1.2 字段介绍
- Date_Received 收到投诉的日期
- Product 投诉的金融产品或服务类型(信用报告、债务催收、抵押贷款等)
- Sub_Product 投诉的子产品(更具体的类别)
- Issue 投诉问题或原因
- Sub_Iissue 投诉子问题(进一步详细说明问题)
- Complaint_Narrative 投诉内容(自由格式文本)
- Comp_Public_Resp 公司针对消费者投诉提供的公开回应
- Company 投诉公司名称
- State 消费者居住地
- Zip 消费者的所在地邮政编码
- Tags 与投诉相关的额外标签或分类
- Consent_Provided 消费者是否同意其投诉信息被收集、处理或公开。
- Submitted_Via 投诉渠道(例如,网络、转介)
- Date_Sent_to_Comp 投诉转交给公司的日期
- Comp_Resp_to_Cons 公司对消费者的投诉的回应。
- Timely_Resp 及时响应,表明该公司是否及时回应了投诉。
- Disputed 消费者异议;表明消费者是否对公司的回应提出了异议
- Complaint_ID 投诉ID
1.3 获取数据
- https://files.consumerfinance.gov/ccdb/complaints.csv.zip
- 备用链接: https://pan.baidu.com/s/1uvhi-waLwAM8yOPzktBnzQ?pwd=kwng 提取码: kwng
二、查看数据
2.1 读取数据
import pandas as pd
df = pd.read_csv('consumer_finance_complaints.csv.gz', compression='gzip')
#或 解压得到csv再读取
#df = pd.read_csv('consumer_finance_complaints.csv')
print('记录条数:', len(df))
df
Run
记录条数: 7978798
2.2 覆盖日期
df['Date_Received'] = pd.to_datetime(df['Date_Received'])
print('覆盖日期:', df['Date_Received'].min().date(), '~', df['Date_Received'].max().date())
Run
覆盖日期: 2011-12-01 ~ 2025-03-03
2.3 字段缺失程度
使用 missingno库 可视化数据集的字段缺失程度,
import missingno as ms
ms.matrix(df)
可以看到 Complaint_Narrative、 Comp_Public_Resp、 Tags、 Consent_provided、 Disputed 这几个字段缺失较多, 而其余字段缺失程度很轻甚至没有。
三、获取数据
- https://files.consumerfinance.gov/ccdb/complaints.csv.zip
- 备用链接: https://pan.baidu.com/s/1uvhi-waLwAM8yOPzktBnzQ?pwd=kwng 提取码: kwng
精选内容
- LIST | 可供社科(经管)领域使用的数据集汇总
- LIST | 社科(经管)数据挖掘文献资料汇总
- 推荐 | 文本分析库cntext2.x使用手册
- 付费视频课 | Python实证指标构建与文本分析
- 教程 | 使用大模型将文本数据转化为结构化数据
- 爬虫代码 | 使用Python采集黑猫投诉网数据
- 数据集| 1500w+消费者投诉数据集(2018 ~ 2024.8)