楼市数据集

有热心粉丝分享了她整理的楼市政策文本,含三个文件

- 194城市楼市政策梳理2010-2022.xlsx
- 2023年楼市政策(截止2.24).xlsx
- 2022年1-10月楼市政策梳理.xlsx



用途

该实验数据集,可用于练习

  • 词频统计
  • 词云图
  • 相似度计算等。



导入数据

因为每个xlsx文件中含有多个sheet, 可以根据sheet名读取不同的sheet表的数据。

194城市楼市政策梳理2010-2022.xlsx 为例, 导入表名为宝鸡、保定、北海、北京、常州的数据。

import pandas as pd

df = pd.read_excel('194城市房产政策梳理2010-2022.xlsx', sheet_name='宝鸡、保定、北海、北京、常州')
df.head()

Unnamed: 0 城市名称 时间 标题 政策内容
0 NaN 宝鸡 2020.11.30 限贷政策 贷款年限30年,首套≤144㎡,贷款比例>75%;首套>144㎡,贷款比例70%;二套≤14...
1 NaN 宝鸡 2022.5.18 关于印发推进陕西自由贸易试验区贸易投资便利化改革创新若干措施的通知(土地政策) 优先保障自贸试验区合理用地需求,按照土地要素跟着项目走的原则,施行对产业链环节等多宗土地整体...
2 NaN 保定 2015.1.20 人才政策 户籍制度改革实施意见的提及放开人才落户限制。规定具有初级及以上专业技术职称、高级工(国家职业...
3 NaN 保定 2016.4.17 土地政策 供地计划对土地供应总量、用途结构、空间布局、土地供应导向等做了详细规定,其中土地供应导向中强...
4 NaN 保定 2016.4.20 土地政策 严格掌控土地供应,中心城区内经营性用地全部纳入政府储备。



df['城市名称'].unique()

Run

    array(['宝鸡', '保定', '北海', '北京', '常州', '成都'], dtype=object)

df['时间'] = pd.to_datetime(df['时间'])

print(df['时间'].min())
print(df['时间'].max())

Run

    2010-04-30 00:00:00
    2022-08-04 00:00:00



数据集获取

链接: https://pan.baidu.com/s/13neTAQzuY3wkJzmc1FjwFg 提取码: w2ra



广而告之