专利所有权转让 是指在获得国家知识产权局授权后,将专利权转让给个人或企业等法律行为。转让行为需在国务院专利行政部门登记,并签订书面合同。转让合同的当事人成为新的专利申请权人或专利权人,可行使相应的专利申请权或专利权。
一、数据集
1.1 专利转让数据集概况
覆盖年份:1985 ~ 2021
数据来源:国家知识产权局
总记录数: 2952073
文件格式: xlsx、csv(csv是汇总数据, xlsx是按年份存储信息的)
数据文件(数字代表字段数量):
-|专利转让19.csv.gz
-|专利转让33.csv.gz
-|专利转让140.csv.gz
-|19
-|1985.xlsx
...
-|2018.xlsx
-|33
-|1999.xlsx
...
-|2019.xlsx
-|140
-|2000.xlsx
...
-|2021.xlsx
内容为付费数据集,100元, 加微信 372335839, 备注「姓名-学校-专业」。
1.2 购前须知
1. 付费数据集,100元;加微信 372335839, 备注「姓名-学校-专业」。
2. 数据是虚拟产品,一经售出,不再退还!
3. 大家时间其实都很宝贵,请仔细阅读推文内容, 确认无误再加微信详谈购买事宜
二、查看数据
数据集中有 3 个 csv压缩文件和 数十个 xlsx文件, 文件名中的数字代表csv中含多少个字段。例如 专利转让19.csv.gz 表示csv中有19个字段。csv是汇总数据, xlsx是按年份存储信息的。
数据文件(数字代表字段数量):
-|专利转让19.csv.gz
-|专利转让33.csv.gz
-|专利转让140.csv.gz
-|19
-|1985.xlsx
...
-|2018.xlsx
-|33
-|1999.xlsx
...
-|2019.xlsx
-|140
-|2000.xlsx
...
-|2021.xlsx
2.1 读取xlsx
试着读取 140/2021.xlsx , 2021年的(含140个字段)
import pandas as pd
df140_2021 = pd.read_excel('140/2021.xlsx')
print(len(df140_2021))
print(df140_2021.columns.tolist())
df140_2021.head(1)
Run
9939
['序号', '公开(公告)号', '标题 (中文)', '公开(公告)日', '受让人类型', '转让执行日', '转让次数', '转让人', '转让人类型', '受让人', '当前法律状态', '法律状态', '转让登记号', '转让登记日', '摘要 (中文)', '申请人', '申请号', '申请日', '公开类型', '专利类型', '公开国别', '链接到incoPat', 'IPC主分类', 'IPC', '洛迦诺分类号', 'EC', 'CPC', 'UC', 'FI', 'F-term', '国民经济分类', '新兴产业分类', '申请人(翻译)', '申请人(其他)', '标准化申请人', '标准化当前权利人', '当前权利人', '第一申请人', '申请人数量', '申请人类型', '申请人国别代码', '申请人地址', '申请人地址(其他)', '申请人省市代码', '中国申请人地市', '中国申请人区县', '当前专利权人地址', '工商别名', '工商英文名', '工商注册地址', '工商公司类型', '工商成立日期', '工商统一社会信用代码', '工商注册号', '工商上市代码', '工商企业状态', '发明人', '发明(设计)人(其他)', '第一发明人', '当前发明人名称', '发明人数量', '发明人国别', '发明人地址', '发明(设计)人地址(其他)', '代理机构', '代理人', '审查员', '受让人地址', '专利有效性', '法律文书日期', '法律文书编号', '复审请求人', '无效请求人', '复审决定', '复审无效决定日', '复审无效法律依据', '标准受让人', '许可次数', '许可合同备案日期', '许可人', '许可人类型', '被许可人', '被许可人类型', '当前被许可人', '许可类型', '质押次数', '质押期限', '出质人', '质权人', '当前质权人', '诉讼次数', '原告', '被告', '诉讼类型', '法庭', '海关备案', '复审决定日', '无效决定日', '口审日期', '法律事件', '复审请求日', '许可合同备案号', '质押号', '合享价值度', '引证专利', '被引证专利', '家族引证', '家族被引证', '引证申请人', '被引证申请人', '家族引证申请人', '家族被引证申请人', '引证次数', '被引证次数', '家族引证次数', '家族被引证次数', '引证科技文献', '被引证国别(forward)', '引证类别', '简单同族', '扩展同族', 'DocDB同族', '简单同族ID', '扩展同族ID', 'DocDB同族ID', '简单同族个数', '扩展同族个数', 'DocDB同族个数', '同族国家/地区', '优先权信息', '优先权号', '优先权日', '最早优先权日', '优先权国别', 'PCT国际申请号', 'PCT国际公布号', 'PCT进入国家阶段日', '母案', '分案', '一案双申']
2.2 专利转让19.csv.gz
import pandas as pd
#csv.gz压缩文件读取方法
df19 = pd.read_csv('专利转让19.csv.gz', compression='gzip')
#解压为csv读取方法
#df19 = pd.read_csv('专利转让19.csv')
df19['申请日'] = pd.to_datetime(df19['申请日'])
print('专利转让19.csv.gz')
print('记录数: ', len(df19))
print()
print(df19['申请日'].min())
print(df19['申请日'].max())
print()
print(df19.columns)
print()
df19.head(1)
Run
专利转让19.csv.gz
记录数: 1655692
1985-04-01 00:00:00
2018-11-14 00:00:00
Index(['序号', '公开(公告)号', '公开(公告)日', '申请号', '申请日', '申请人', '申请人省市代码', '中国申请人地市',
'中国申请人区县', '申请人地址', '当前专利权人', '法律状态', '当前法律状态', '专利类型', '主分类号', '转让人',
'受让人', '转让执行日', '公开国别'],
dtype='object')
2.3 专利转让33.csv.gz
import pandas as pd
df33 = pd.read_csv('专利转让33.csv.gz', compression='gzip')
#解压为csv读取方法
#df33 = pd.read_csv('专利转让33.csv')
df33['申请日'] = pd.to_datetime(df33['申请日'])
print('专利转让33.csv.gz')
print('记录数: ', len(df33))
print()
print(df33['申请日'].min())
print(df33['申请日'].max())
print()
print(df33.columns)
print()
df33.head(1)
Run
专利转让33.csv.gz
记录数: 246080
1999-01-07 00:00:00
2019-11-07 00:00:00
Index(['序号', '标题', '公开(公告)号', '公开(公告)日', '申请号', '申请日', '申请人', '标准化申请人',
'标准化当前专利权人', '申请人国别代码', '申请人省市代码', '中国申请人地市', '中国申请人区县', '申请人地址',
'申请人类型', '当前专利权人', '法律状态', '当前法律状态', '专利类型', '发明人', '代理人', '代理机构',
'审查员', '主分类号', 'IPC', '国民经济分类', '转让人', '受让人', '转让执行日', '原告', '被告',
'第一申请人', '公开国别'],
dtype='object')
2.4 专利转让140.csv.gz
import pandas as pd
#csv.gz压缩文件读取方法
df140 = pd.read_csv('专利转让140.csv.gz', compression='gzip')
#解压为csv读取方法
#df140 = pd.read_csv('专利转让140.csv')
df140['申请日'] = pd.to_datetime(df140['申请日'])
print('专利转让140.csv.gz')
print('记录数: ', len(df140))
print()
print(df19['申请日'].min())
print(df19['申请日'].max())
print()
print(df19.columns)
print()
df19.head(1)
Run
专利转让140.csv.gz
记录数: 1050301
1985-04-01 00:00:00
2018-11-14 00:00:00
Index(['序号', '公开(公告)号', '公开(公告)日', '申请号', '申请日', '申请人', '申请人省市代码', '中国申请人地市',
'中国申请人区县', '申请人地址', '当前专利权人', '法律状态', '当前法律状态', '专利类型', '主分类号', '转让人',
'受让人', '转让执行日', '公开国别'],
dtype='object')
2.5 总记录数
len(df19)+len(df33)+len(df140)
Run
2952073
三、年度记录数
3.1 字段19
19个字段的数据,每年的记录数
print('19字段-记录数')
for year, year_df in df19.groupby(df19['申请日'].dt.year):
print(year, len(year_df))
Run
19字段-记录数
1985 104
1986 67
1987 138
1988 164
1989 103
1990 90
1991 146
1992 430
1993 984
1994 1928
1995 2602
1996 3611
1997 6414
1998 7770
1999 8961
2000 14222
2001 20005
2002 28349
2003 37824
2004 43323
2005 52268
2006 61030
2007 65962
2008 78316
2009 94011
2010 103698
2011 125021
2012 144187
2013 160240
2014 158838
2015 161830
2016 149941
2017 97372
2018 25743
3.2 字段33
33个字段的数据,每年的记录数
print('33字段-记录数')
for year, year_df in df33.groupby(df33['申请日'].dt.year):
print(year, len(year_df))
Run
33字段-记录数
1999 74
2000 248
2001 293
2002 420
2003 632
2004 805
2005 1126
2006 1397
2007 1748
2008 2372
2009 2888
2010 3611
2011 4364
2012 5776
2013 15155
2014 20593
2015 27215
2016 42062
2017 59276
2018 51792
2019 4233
3.3 字段140
140个字段的数据,每年的记录数
print('140字段-记录数')
for year, year_df in df140.groupby(df140['申请日'].dt.year):
print(year, len(year_df))
Run
140字段-记录数
2000 66
2001 360
2002 965
2003 1639
2004 2424
2005 3710
2006 4517
2007 6556
2008 8386
2009 11227
2010 14925
2011 22968
2012 33932
2013 47757
2014 60567
2015 78147
2016 107435
2017 135501
2018 199329
2019 176711
2020 123240
2021 9939
四、字段缺失率
数据集字段太多, 最好通过代码查看下字段缺失率
4.1 字段19缺失率
for field in df19.columns:
#缺失率
ratio = df19[field].isna().sum()/len(df19)
print(field, ratio)
Run
序号 0.0
公开(公告)号 0.0
公开(公告)日 0.0
申请号 0.0
申请日 0.0
申请人 0.0
申请人省市代码 0.00012683518432172168
中国申请人地市 0.21583241327493277
中国申请人区县 0.24252155594156402
申请人地址 0.0
当前专利权人 2.1743174455152288e-05
法律状态 3.019885340993373e-06
当前法律状态 0.0
专利类型 0.0
主分类号 0.07351306885580168
转让人 0.0
受让人 0.0
转让执行日 0.00016548971668643684
公开国别 0.0
4.2 字段33缺失率
for field in df33.columns:
ratio = df33[field].isna().sum()/len(df33)
print(field, ratio)
Run
序号 0.0
标题 0.0
公开(公告)号 0.0
公开(公告)日 0.0
申请号 0.0
申请日 0.0
申请人 0.0
标准化申请人 0.8322131014304291
标准化当前专利权人 0.9236955461638492
申请人国别代码 0.0
申请人省市代码 0.0007680429128738621
中国申请人地市 0.09331924577373212
中国申请人区县 0.11477974642392717
申请人地址 0.0
申请人类型 0.0
当前专利权人 0.0
法律状态 0.0
当前法律状态 0.0
专利类型 0.0
发明人 0.0
代理人 0.27707656046814044
代理机构 0.27707656046814044
审查员 1.0
主分类号 0.06866059817945383
IPC 0.06866059817945383
国民经济分类 0.0018205461638491547
转让人 0.0
受让人 0.0
转让执行日 0.0
原告 0.9991141092327698
被告 0.9991181729518855
第一申请人 0.0
公开国别 0.0
4.3 字段140缺失率
for field in df140.columns:
ratio = df140[field].isna().sum()/len(df140)
print(field, ratio)
Run
序号 0.0
公开(公告)号 0.0
标题 (中文) 0.0
公开(公告)日 0.0
受让人类型 0.0
转让执行日 0.0
转让次数 0.0
转让人 0.0
转让人类型 9.521080147500573e-07
受让人 0.0
当前法律状态 0.0
法律状态 0.0
转让登记号 1.0
转让登记日 1.0
摘要 (中文) 0.0
申请人 0.0
申请号 0.0
申请日 0.0
公开类型 0.0
专利类型 0.0
公开国别 0.0
链接到incoPat 0.2410651803625818
IPC主分类 0.04527368820937998
IPC 0.04527368820937998
洛迦诺分类号 0.8595155103156142
EC 0.9829315596195757
CPC 0.4954703461198266
UC 0.9171827885529957
FI 1.0
F-term 1.0
国民经济分类 0.09521080147500574
新兴产业分类 0.33990160915775575
申请人(翻译) 0.028841255982808737
申请人(其他) 0.9047891985249943
标准化申请人 0.09521080147500574
标准化当前权利人 0.0
当前权利人 0.0
第一申请人 0.0
申请人数量 0.0
申请人类型 0.0
申请人国别代码 0.0
申请人地址 0.0
申请人地址(其他) 0.9047891985249943
申请人省市代码 0.10137379665448286
中国申请人地市 0.08290480538436125
中国申请人区县 0.10333609127288272
当前专利权人地址 0.1408396259738875
工商别名 0.779989736275601
工商英文名 0.7097203563549878
工商注册地址 0.3659132001207273
工商公司类型 0.3964568252339091
工商成立日期 0.3763606813665797
工商统一社会信用代码 0.33329207531936084
工商注册号 0.3941651012424057
工商上市代码 0.872327075762091
工商企业状态 0.38779359440769834
发明人 0.02176138078512731
发明(设计)人(其他) 0.9008788909084158
第一发明人 0.09503085306021798
当前发明人名称 0.8596783207861366
发明人数量 0.08785100652098779
发明人国别 0.9047891985249943
发明人地址 1.0
发明(设计)人地址(其他) 0.9845910838892851
代理机构 0.30475263757722787
代理人 0.22121848879511682
审查员 0.6819978272895103
受让人地址 6.664756103250401e-06
专利有效性 0.0
法律文书日期 0.9036999869561202
法律文书编号 0.9988631830303885
复审请求人 0.994335909420252
无效请求人 0.9980358011655707
复审决定 0.9931648165621093
复审无效决定日 0.9923764711258963
复审无效法律依据 0.9925745095929643
标准受让人 0.0945938354814477
许可次数 0.8932029960935008
许可合同备案日期 0.9874397910694173
许可人 0.987433126313314
许可人类型 0.987433126313314
被许可人 0.9874312220972845
被许可人类型 0.9874312220972845
当前被许可人 0.98904790150633
许可类型 0.987532145546848
质押次数 0.9783376384484067
质押期限 0.9974673926807649
出质人 0.9808902400359516
质权人 0.9784309450338522
当前质权人 0.9823755285389617
诉讼次数 0.9968675646314723
原告 0.9988070086575181
被告 0.9987898707132526
诉讼类型 0.998735600556412
法庭 0.9987765412010462
海关备案 0.9994706279437989
复审决定日 0.995455588445598
无效决定日 0.9982614507650664
口审日期 0.9987213189361906
法律事件 0.09516795661434198
复审请求日 0.8991670006978951
许可合同备案号 0.9878377722195828
质押号 0.9799076645647296
合享价值度 0.09275150647290634
引证专利 0.4035186103793103
被引证专利 0.610673511688554
家族引证 0.4082791504530606
家族被引证 0.423179640883899
引证申请人 0.4423846116494224
被引证申请人 0.6122416335888474
家族引证申请人 0.40952260352032416
家族被引证申请人 0.42539614834223716
引证次数 0.44171623182306785
被引证次数 0.610673511688554
家族引证次数 0.4082791504530606
家族被引证次数 0.423179640883899
引证科技文献 0.8357090015148039
被引证国别(forward) 0.6626548008618481
引证类别 0.6692310109197268
简单同族 0.09521080147500574
扩展同族 0.0
DocDB同族 0.0
简单同族ID 0.0
扩展同族ID 0.0
DocDB同族ID 0.0
简单同族个数 0.0
扩展同族个数 0.0
DocDB同族个数 0.0
同族国家/地区 0.0
优先权信息 0.829316548303772
优先权号 0.9152566740391564
优先权日 0.9152566740391564
最早优先权日 0.9152576261471711
优先权国别 0.9100848233030341
PCT国际申请号 0.9480701246595024
PCT国际公布号 0.951777633268939
PCT进入国家阶段日 0.9508997896793395
母案 0.9777254329949224
分案 0.9772046299108541
一案双申 0.9016415294282306
五、相关内容
5.1 文献
使用专利数据做研究的文献
[1]Bellstam, Gustaf, Sanjai Bhagat, and J. Anthony Cookson. "A text-based analysis of corporate innovation." _Management Science_ 67, no. 7 (2021): 4004-4031.
[2]Arts, Sam, Bruno Cassiman, and Jianan Hou. "Position and Differentiation of Firms in Technology Space." Management Science (2023).
5.2 代码操作
六、获取数据
1. 付费数据集,100元;加微信 372335839, 备注「姓名-学校-专业」。
2. 数据是虚拟产品,一经售出,不再退还!
3. 大家时间其实都很宝贵,请仔细阅读推文内容, 确认无误再加微信详谈购买事宜