一、数据集概况
中国地方政府采购合同数据是中国政府采购网中国政府购买服务信息平台披露的政府采购合同信息,主要囊括了采购人(甲方)、采购人所属行政区、供应商(乙方)以及合同金额等关键信息。数据自 2008-06-12 ~ 2021-02-03, 共有 648538 条 。
字段 | 字段标题 | 字段说明 |
---|---|---|
purchaser | 采购人 | 采购人(甲方) |
address | 所属地域 | 采购人(甲方)所属地域 |
administrative_code | 行政区代码 | 采购人(甲方)所属行政区代码(中华人民共和国 6 位行政区划代码,中华人民共和国民政部 2019 年 6 月版) |
provincial_region | 省级行政区 | 采购人(甲方)所属省级行政区(中华人民共和国的第 一级行政区,中国共计 34 个省级行政区,包括 23 个省、 5 个自治区、4 个直辖市、2 个特别行政区) |
perfecture_division | 地级行政区 | 采购人(甲方)所属地级行政区(中华人民共和国的第 二级行政区,中国大陆共计 333 个地级行政区,包括 293 个地级市、7 个地区、30 个自治州、3 个盟) |
supplier | 供应商名称 | 供应商(乙方)名称 |
industry | 所属行业 | 供应商(乙方)名称所属行业 |
contract_number | 合同编号 | 合同编号 |
contract_name | 合同名称 | 合同名称 |
contract_amount | 合同金额 | 合同金额(单位: 万元) |
project_number | 项目编号 | 项目编号 |
project_name | 项目名称 | 项目名称 |
contract_date | 签订日期 | 签订日期 |
announcement_date | 公告日期 | 公告日期 |
agency | 代理机构 | 代理机构 |
contract_id | 合同标识 | 合同唯一标识符 |
if_joint | 是否众包 | 一个采购合同是否对应多家供应商。是记为“1”,否记为 “0” |
二、读取数据集
import pandas as pd
df = pd.read_csv('data/中国地方政府采购合同.csv', encoding='utf-8', low_memory=False)
df.head()
len(df)
Run
648538
df['contract_date']
Run
0 2020-12-02
1 2020-06-14
2 2020-05-28
3 2020-05-14
4 2020-05-13
...
648533 2018-11-07
648534 2018-11-07
648535 2018-11-07
648536 2018-11-01
648537 2018-10-30
Name: contract_date, Length: 648538, dtype: datetime64[ns]
三、相关论文
孙薇,叶初升.政府采购何以牵动企业创新——兼论需求侧政策“拉力”与供给侧政策“推力”的协同[J].中国工业经济,2023,(01):1-19.
3.1 方法
通过 Python爬虫技术 获取中国政府采购新闻网 2015—2020 年 64 余万条政府采购合同数据,采用 文本分析方法 识别出政府创新采购,进而利用政府创新采购合同与中国 A 股上市企业匹配数据,实证检验政府创 新采购的创新效应及其影响机制,并对需求侧的政府创新支持“拉力”和供给侧的政府创新支持“推力”进行异质性分析,进一步探讨了两侧创新支持政策实施中的协同性问题,从而为政府精准施策提供学术依据。
3.2 创新
本文的边际贡献在于:
- ①基于政府采购合同数据,使用文本分析方法,从总体的政府采购中识 别出政府创新采购,为准确评估政府采购政策的创新效应创造了前提条件;
- ②在一个理论框架内阐 明了政府创新采购影响企业创新的机制,并进行了相应的实证检验,从理论和实证两个方面丰富了 需求侧创新政策激励效应的研究;
- ③从政策组合的整体视角考察了两侧创新支持政策的协同性问 题,为新发展阶段全面提升中国创新激励政策的实施效果、更好发挥“有为政府”在创新驱动中的作 用提供了重要的政策启示。
3.3 算法
本文将各级国家机关和事业单位对创新产品和服务的采购界定为政府创新采购,并应用文本分析方法从总体的政府采购中加以识别。
本文使用的政府采购查询系统,对于每一份合同,网站都披露了合同名称、签订日期、合同金额、供应商名称、采购人 名称、所属地区等信息。 由于从 2015 年开始可以查询到较为详细的采购合同信息,因此,本文选取 2015—2020 年作为实证研究的年份区间。
(1)基于文本分析的政府创新采购识别。 本文的文本分析基于 Python 的 jieba分词实现。 为提升分词结果的可靠性,本文构建了行业词库和停用词库,以形成对 Jieba 分词自带词库的有益补充。 基于以上词库,对《重大技术装备自主创新指导目录(2012)》和《战略性新兴产业分类(2018)》中的 “重点产品和服务目录”以及手工收集的各地区创新产品目录进行分词 ,并对分词结果进行精细化的人工筛选,最终得到包含“智能电网” “液相色谱仪” “智能医疗系统” “物联网网关” “旋翼无人机” “管道机器人” 等 3000 余个词汇的政府创新采购关键词库。 随后,对 2015—2020 年 64 余万条政 府采购合同的“合同名称”“ 主要标的名称”和“规格型号或服务要求”进行分词。 如果某个政府采购合同的以上三项信息中包含关键词库内任意一个关键词,那么该合同就被认定为政府创新采购合同。
(2)“政府创新采购合同-上市企业”匹配。 在对各企业供应商的名称初步清洗之后,采用 Python 的 levenshtein distance 算法,进行“政府创新采购合同—上市企业”匹配。 为提升匹配精度, 同时开展模糊匹配和精确匹配,并以人工校对的方式汇总匹配结果。 考虑到上市企业往往会有较多子公司参与政府采购的招投标,本文手工整理了分年度的上市企业母、子公司名称,据此匹配,并将匹配结果合并。 最终共有 873 家上市企业匹配到政府创新采购合同,在本文的总样本中,每家上市企业平均获得政府创新采购合同约 1.21 份。
四、Python技术细节
- 网络爬虫采集政府采购网数据
- jieba分词
- 导入创新技术相关词,更新jieba自定义词库
- 分词
- 使用if语句判断是否含某创新词
- 文本相似度进行采购合同上市公司匹配。levenshtein distance