一、世界地图POI兴趣点数据集

POI数据集包含全球超过 1850 万个 POI, 数据按国家或地区组织分别以 CSV 文存档中, 数据集每月更新一次。



1.1 字段

POI数据集含 区域位置、商业地点、营业时间,运营主体,网站等信息, 可用于GIS、区域经济等领域的研究。 文末有数据集获取方式 , 数据集中包含的字段有


- ID OpenStreetMap ID
- NAME 地名、国际名称
- CATEGORY、SUBCATEGORY POI类目/子类目
- LAT、LON 经度、纬度
- SRID 基于OSM标签的POI分类(14类167子类)
- WKT   WGS84中的geometry (WKT);
- IMAGE 链接到照片/图像;
- OPENING_HOURS  营业时间
- WIKIPEDIA 链接到维基百科文章;
- LAST_UPDATE 上次更新日期,
- OPERATOR 运营商
- ALTERNATIVE_NAME 备用名称
- INTERNATIONAL_NAME 国际名称(通常为英文或音译为拉丁字符);
- STREET、HOUSENUMBER 地址(街道、门牌号)
- POSTCODE、CITY、COUNTRY   地址(邮编、城市、国家);
- DESCRIPTION 完整描述(如果在 OSM 中列出);
- PHONE、FAX、WEBSITE、EMAIL      联系人(电话号码、传真号码、网站、邮箱);
- OTHER_TAGS 而其余标记值列在“OTHER_TAGS”列下。

1.2 截图


1.3 数据质量对比

OpenStreetMap(简称OSM,中文是公开地图)是一个网上地图协作计划,目标是创造一个内容自由且能让所有人编辑的世界地图。OSM的数据有两种来源

  • 广大用户的贡献(众包),包括利用 GPS 设备自行测绘和根据卫星影像地图(Bing/Yahoo!/Landsat等)绘制两种,
  • 少数政府部门的测绘机构及商业公司根据相应授权提供。

而Google的数据则主要依靠专业测绘商采购(在中国主要是 AutoNavi/高德),以自己采集(街景)、政府部门提供(主要是NASA的Landsat影像)和用户贡献(Google Map Maker)作为补充。据此不难看出,OSM数据的优势主要体现在更新及时,而Google则胜在较强的专业性和准确性。至于数据的覆盖面,这要看OSM贡献者数量和Google财力与测绘商能力的对比。当OSM贡献者的数量和参与热情达到一定水平,其数据的数量和质量完全不逊于Google(请看OSM上德国地图)。维基百科战胜大英百科全书即是侧证。



二、实验

以中国数据为例

import pandas as pd
import warnings
warnings.filterwarnings('ignore')

df = pd.read_csv('china-pois.osm.csv', sep='|')
df.head()


#poi数据量
len(df)
911246

#poi数据集的字段
df.columns
Index(['ID', 'NAME', 'CATEGORY', 'SUBCATEGORY', 'LON', 'LAT', 'SRID', 'WKT',
       'CITY', 'IMAGE', 'EMAIL', 'COUNTRY', 'OPENING_HOURS', 'WIKIPEDIA',
       'OPERATOR', 'DESCRIPTION', 'LAST_UPDATE', 'ALTERNATIVE_NAME',
       'POSTCODE', 'INTERNATIONAL_NAME', 'WEBSITE', 'PHONE', 'NAME_EN',
       'STREET', 'HOUSENUMBER', 'FAX', 'OTHER_TAGS'],
      dtype='object')

#poi类型分布
df.CATEGORY.value_counts()
SETTLEMENTS      397769
TRANSPORT        198462
EDUCATION         56087
LANDUSE           50161
TOURISM           47618
SHOP              42939
EAT/DRINK         28386
PUBLICSERVICE     22905
AUTOMOTIVE        14809
ACCOMMODATION     13092
BUSINESS          12573
HEALTH            10747
RELIGIOUS          8039
SPORT              7659
Name: CATEGORY, dtype: int64

#经纬度范围
print('经度(东)', df.LON.max())
print('经度(西)', df.LON.min())

print('纬度(北)', df.LAT.max())
print('纬度(南)', df.LAT.min())
经度(东) 135.08528800000002
经度(西) 72.2818637
纬度(北) 53.56513885988782
纬度(南) 15.1251016


三、下载地址

数据集下载地址

http://download.slipo.eu/results/osm-to-csv/poi/



四、参考资料



广而告之