摘要:随着专利数量的迅猛增长,专利质量问题日益凸显,专利质量评价成为学者关注焦点。面对海量专利数据,如何构建有效的专利质量评价方法,实现对专利质量的准确评价和分类是一项急迫的工作。首先,通过对国内外相关专利质量评价研究进行系统调研和梳理,提出一种新的专利质量评价指标体系;其次,根据新的专利质量评价指标体系,构建一种基于机器学习的专利质量评价方法;最后,以人工智能技术专利为倒进行实证研究。结果表明,有效综合利用专利技术性、经济性、法定性和主体性评价指标,有助于更加全面、深入地评价专利质量;基于机器学习的专利质量评价方法能够迅速对专利进行分类并识别高质量专利,从而提高专利质量评价结果深度,为实现大规模专利质量分类评价智能化提供可能。
关键词:机器学习,专利质量,评价,指标体系,人工智能
基金项目:国家自然科学基金面上项目(71673018)
0 引言
专利集技术、经济、法律信息于一体,记载了世界各国的新方法、新技术[1],代表一国或某一企业的技术发展水平和市场竞争力[2]。专利质量是出台专利维持、转化等经济决策的重要依据[3]。从众多专利中甄选出高质量专利,可有效促进专利转移转化,同时有利于企业明确自身发展现状、制定研发战略、开发强竞争力产品[4],也有利于国家或企业准确识别竞争对手并寻找合作伙伴[1]。在专利大数据背景下,提出行之有效的专利质量评价方法,高效筛选出高质量专利,值得学者深思。
专利质量评价的前提是明确专利质量内涵,确定有效的专利质量评价标准(谷丽等,2018),构建科学的专利质量评价方法。目前,国内外学者对专利质量概念尚未达成共识,多数学者从专利创新性、新颖性和实用性,抑或是专利技术质量、经济质量和法律质量等维度对专利质量及其内涵进行阐述,认为专利质量是衡量授权专利能否满足可专利性的标准,尤其是符合创新性、新颖性和实用性的充分描述[5-10]。本文中的专利质量指专利创新性、新颖性、创造性和实用性等程度,以反映专利的技术经济质量。
目前学者在构建专利质量评价指标体系时大都只考虑专利技术、法律和经济性指标,很少有学者从专利主体实力出发,将专利开发主体因素纳入专利质量评价指标体系[11-13]。而已有研究表明,专利权人开发能力和努力程度对专利质量有直接影响[14],专利质量在一定程度上取决于发明人的技术水平[15];竞争实力强的企业比较注重自身技术研发,其专利引用率较高,专利质量也较好[16];也有学者指出专利质量包含专利申请人因素、专利审查因素及专利内在属性3个方面指标[17]。因此,应将专利开发主体因素纳入专利质量评价指标体系,以实现对专利质量的全面性和客观性评价。
在专利质量评价方法方面,由于一些专利质量评价指标数据难以获取,学者大都采用统计分析法和专家主观判断法对专利质量进行评价[12-13],导致专利质量评价结果可信度较差。而机器学习方法无需专家参与,算法能够学习不同数据的特征,还可将其成功应用于新输入数据[3,14]。将机器学习方法应用于专利质量评价,只需要确定专利质量评价指标,运用已有专利质量评价指标数据完成模型构建,当输入新专利数据时,即可完成对新输入专利质量的准确评价和分类。而且,已有学者利用机器学习对专利质量进行评价,并已证明该方法的可行性。张杰等[3]运用AdaBoost算法评价诉讼专利的专利质量;Lee等[14]利用人工神经网络方法对制药技术领域专利进行分类,并识别了高质量专利。
综上所述,本文结合现有专利质量评价指标体系,将专利开发主体纳入专利质量评价指标体系,从专利技术性、法定性、经济性和主体实力4个维度构建专利质量评价指标;利用机器学习方法,构建基于机器学习的专利质量评价模型,并以人工智能技术专利为例进行实证研究,以验证专利质量评价指标体系和模型的可行性与有效性。
1 专利质量评价指标体系构建
本文从专利质量内涵出发,构建基于机器学习的专利质量评价模型,并遵循以下原则:①指标体系应涵盖专利质量技术、经济、法律和主体四大维度,以全面衡量专利质量;②为便于对高质量专利进行早期评价和识别,指标应满足专利一经申请即可获得的要求;③考虑到运用机器学习方法对专利质量进行评价,应选取可量化、易获取指标。因此,本文选取包含技术、经济、法律和主体四大维度的19个指标,以对专利质量进行全面和准确评价。
1.1 技术性指标
技术性指标主要从技术自身角度出发衡量专利质量。
(1)技术原创性。专利原创性是指一条专利的被引专利的技术覆盖范围,专利原创性越高,专利质量越好[18]。本文中的技术原创性是指专利i每条被引专利IPC-子类与其所有被引专利IPC-子类总量之比的平方和与1的差值,计算公式如下:

其中,i为某专利;j为被专利i引用的专利的IPC-子类量;n为被专利i引用的专利总量;Sij2为j与所有被专利i引用的专利的IPC-子类总量的比值。
(2)专利引证数。专利引证数是指目标专利引用的专利数量,用于反映该专利技术基础[19]。专利引证数与专利技术基础正相关[12],其值越高,表明专利质量也越好。
(3)文献引证数。文献引证数是指专利引用科学文献的数量[20]。一些学者指出可用非专利文献数量衡量专利与科学知识的接近程度[14];文献引证数越多,表明专利与科学的关联程度越高[12],反映专利质量越好。
(4)技术生命周期。技术生命周期是指专利引证中所有专利年龄的中位数或平均数[21],反映技术创新或科技发展速度,其值越小,表明技术越新且创新速度越快[4]。技术生命周期是CHI Research提出的最早的7个专利质量评价指标之一[11],可见该指标的重要性。该指标具有较强的产业依存性,不同产业间差距较大[1]。本文中的技术生命周期是指目标专利所有引用专利年龄的平均数。
(5)技术覆盖范围。技术覆盖范围是指专利的四位IPC子类数量。研究显示,专利被引次数与IPC子类数量高度正相关[22]。技术覆盖范围越大,专利被引次数越高,专利质量也越好。吴菲菲等[21]发现,在中英文文献中频次排名前10位的专利质量指标中,技术覆盖范围排名第三,可见该指标的重要性。由于IPC子类可能存在信息不全或分类错误的现象,本文中的技术覆盖范围指IPC-DWPI子类数量。
(6)专利被引次数。专利被引次数是指专利公开后被其它专利引用的次数,用于反映专利质量[23]。被引次数越高,表明技术影响力和重要性越高[24],专利质量也越好。本文中的专利被引次数包括3年内被引次数、5年内被引次数、10年内被引次数。
1.2 法定性指标
法定性指标主要从专利申请流程、申请成本、维护成本及保护范围等角度衡量专利的法定质量。
(1)申请时程。申请时程是指专利授权年份与专利申请年份的差值[3],反映技术本身先进程度和专利重要程度,申请时程越长,表明技术先进性越强[3,4],专利质量越高。本文中的申请时程是指专利公开时间与申请时间的间隔。
(2)权利要求数。权利要求数是指一件专利中权利要求的数量[3],反映专利保护范围,且与专利有用性及其价值正相关[25-26]。权利要求数越多,表明专利质量越高[26],越有可能被侵权,属于法定性指标[3]。
(3)独立权利要求数。独立权利要求数是指一件专利中独立权利要求的数量,反映了专利解决技术难题的技术创新性和实用性(谷丽等,2018),是权利要求数的补充性指标,以更加准确地了解专利保护范围。
1.3 经济性指标
经济性指标主要从专利保护范围和专利实施情况两个方面衡量专利经济质量。
(1)专利族大小。专利族大小是指某一发明在不同国家或地区发布的数量,反映专利保护地域范围(谷丽等,2018)。专利同族数越大,代表专利权人对该专利投入的成本越高,以完成专利发布与维护,同时在多国或地区带来的经济效益也越高[12]。已有研究表明,专利同族规模与专利经济质量显著正相关[27]。
(2)专利转让次数。专利转让是技术发明商业化的重要形式[28]以及专利技术转移手段[29]。专利转让反映专利经济质量[30],转让数量则反映专利技术市场需求[29]。专利转让次数指专利权人发生变更的次数。转让次数越多,表明专利经济质量越好,专利质量也就越高。
1.4 主体性指标
主体性指标主要从专利发明主体角度衡量专利发明人的技术实力,进而间接判定专利质量。
(1)专利权人数。专利权人数是指一件专利的专利权所有人数量[3],反映专利研发资源投入程度及技术实用性[12]。专利权人数与专利质量显著正相关[31],专利权人数越多,专利质量越高,同时也越有利于专利维护[3]。可见,专利权人数在一定程度上既能反映专利主体性又能反映专利法定性,可综合反映专利质量。
(2)发明人数。发明人数是指一件专利发明人的数量,用于反映专利合作情况。发明人数量越多,不同发明人贡献的知识和经验越多,知识基础越坚实,专利质量提升的可能性越大[3,32]。
(3)科学关联度。科学关联度是指专利引用非专利参考文献的平均数量,用以反映该专利与科技前沿的关联度[24],其值越大,表明企业与科技前沿的联系越密切[1]。本文中的科学关联度是指专利第一发明人所有专利引用科技文献的平均数量,用以反映该发明人与最新科技的关联程度。
(4)总体技术。总体技术是指专利权人发布的所有专利数,反映专利权人开发专利的努力程度[14]。专利权人的专有技术越多,专利权人技术实力越强,相应专利质量也就越高。专利权人包括企业、高校、个人和研发机构等。本文中的总体技术是指专利第一发明人发明的所有专利数,以衡量该发明人的总体技术实力。
(5)核心技术。核心技术是指专利权人发布的该领域的专利数,反映专利权人的核心领域知识[14]。专利权人的核心技术实力越强,专利质量也越高。本文中的核心技术是指专利第一发明人发明的该领域的专利数,以了解该发明人在某特定领域的技术地位。
(6)总体技术实力。本文中的总体技术实力与总体技术相对应,是指专利第一发明人发布的所有专利的总被引次数[14]。专利权人总体技术实力越强,专利质量越高。
(7)核心技术实力。本文中的核心技术实力与核心技术相对应,是指专利第一发明人发布的该领域专利的总被引次数[14]。专利权人核心技术实力越强,专利质量也就越高。
(8)他引率。他引率是指某专利被他人引用的次数在该专利总被引次数的占比,反映该专利的后续影响力。研究表明,总被引频次与他引率指标之间存在一定的正相关关系[33],他引率越高,该技术对后续专利的影响越大,专利质量也就越高。
2 基于机器学习的专利质量评价模型构建
为全面客观进行专利质量评价,本文在构建专利质量评价指标体系的基础上,提出一种基于机器学习的专利质量评价方法。该方法的主要思路是:首先,从Derwent Innovation(DI)数据库中检索专利质量评价相关数据,完成数据获取与预处理;其次,提取专利质量评价指标及相关数据,构建适用于机器学习模型的专利质量评价指标体系;再次,通过训练和测试完成机器学习分类器构建;最后,运用分类器性能指标对分类结果进行评价,并根据分类效果不断改进机器学习模型,选出最优的专利质量评价模型。本文构建的基于机器学习的专利质量评价模型如图1所示,具体分析步骤如下:

图1 基于机器学习的专利质量评价模型
2.1 专利数据获取与预处理
以研究的技术领域为例,确定该领域检索表达式,在DI数据库检索并获取该领域专利,并以专利质量评价指标为依据,在专利数据库中下载专利指标相关数据,对获取的专利数据进行预处理。
2.2 专利质量评价指标提取与数据处理
专利质量具有不可观察、无法直接度量以及难以获取等特点,实际应用中可用专利质量的代理变量表征专利质量[3]。专利被引次数与专利质量之间存在显著正相关关系[22]。研究表明,该指标是最有代表性的专利质量表征指标之一,其一方面反映了该专利的技术贡献程度,另一方面表明其余学者对该专利技术的赞同程度,与专利质量高度相关[1,4,12-14,19,23-24]。因此,本文选用专利被引次数表征专利质量,并将专利自公开后3年内被引次数、5年内被引次数和10年内被引次数分别衡量专利短期、中期和长期技术影响力。
专利转让是技术发明商业化的重要形式[28]以及专利技术转移手段[29]。专利转让反映专利经济质量[30],转让次数越多,表明专利质量越好[28]。一些学者利用专利转让指标评价专利质量,并对其有效性和可行性进行了验证[3,34]。因此,本文将专利转让次数作为表征专利质量的另一指标。
本文根据已构建的专利质量评价指标体系,将专利被引次数和专利转让次数作为基于机器学习的专利质量评价模型的输出指标,用以表征专利质量;其余指标则作为机器学习模型的输入指标。本文构建的适用于机器学习模型的专利质量评价指标体系如表1所示,并根据该指标体系与各指标计算方法获得相应指标数据。
表1 专利质量评价指标体系
性质
|
维度
|
指标名称
|
含义或计算方法
|
输入指标
|
技术性指标
|
技术原创性
|
目标专利引用先前专利的HHI指数
|
专利引证数
|
目标专利引用先前专利的数量
|
文献引证数
|
目标专利引用科技文献的数量
|
技术生命周期
|
目标专利引用的所有专利年龄的平均数
|
技术覆盖范围
|
目标专利IPC-DWPI子类数量
|
法定性指标
|
申请时程
|
专利授权年份与专利申请年份的差值
|
权利要求数
|
目标专利的权利要求数
|
独立权利要求数
|
目标专利的独立权利要求数
|
经济性指标
|
专利族大小
|
目标专利在不同国家或地区申请专利的数量
|
主体性指标
|
专利权人数
|
目标专利的专利权人数
|
发明人数
|
目标专利的发明人数
|
科学关联度
|
发明人发布的所有专利引用科技文献的平均数
|
总体技术
|
发明人发布的所有专利数
|
核心技术
|
发明人发布的该领域专利数
|
总体技术实力
|
发明人所有专利的总被引次数
|
核心技术实力
|
发明人发布的该领域专利的总被引次数
|
他引率
|
发明人所有专利被他人引用的比率
|
输出指标
|
技术性指标
|
短期影响
|
目标专利自公开3年内的被引次数
|
中期影响
|
目标专利自公开5年内的被引次数
|
长期影响
|
目标专利自公开10年内被引次数
|
经济性指标
|
专利转让
|
目标专利自公开之后的转让次数
|
2.3 分类器构建
本文利用机器学习分类算法,根据专利被引和转让次数对专利进行分类,以对专利质量进行准确的分类评价。考虑到机器学习算法与研究问题的相关性,以及各算法对数据量的要求、数据敏感性、模型结果可解释性、模型准确性及各算法优劣势等方面,本文选择已成功运用到制药技术领域专利分类[14]、诉讼专利质量评价[3]及农作物分类[35]等支持向量机、人工神经网络、随机森林及自适应增强4种机器学习分类方法,以完成专利质量评价模型构建。
2.3.1 支持向量机
支持向量机(Support Vector Machine,SVM)的基本思路是寻找一个最优分类超平面,使两类间相邻最近样本点间的边缘最大化[36]。SVM具有简单易实现、理论完善、准确性高、小样本可行等优点,目前已得到广泛应用[37]。本文选用一对一类法(OvO)实现SVM的多分类,对于包含k类的训练样本,每个分类器仅涉及两类训练样本,共需构造k(k-1)/2个分类器实现多分类[36]。
2.3.2 人工神经网络
人工神经网络(Artificial Neural Networks,ANN)是基于生物神经网络结构的非线性统计数据建模工具,由一组相互关联的神经元组成[38-39]。其基本思路是在训练阶段,由网络输入节点接收特征值,信号通过层与层间的激活函数不断迭代调整输入与输出间的连接权重矩阵,输出节点产生类别值;测试阶段则根据训练阶段的权重矩阵,得到待分类数据的所属类别[40]。人工神经网络因在处理大数据与构建复杂模型时准确性高而被广泛应用。本文中的ANN指常见前馈神经网络中的多层感知机网络,其主要是对输入层、隐藏层和输出层网络结构进行设计。
2.3.3 随机森林
随机森林(Random Forest,RF)是一种以决策树为基分类器的集成学习算法,运用Bagging抽样技术,可避免过拟合,且能够在训练过程中对变量重要性进行评估,具有很强的抗噪声和泛化能力[41],结果对缺失数据较稳健。其主要思路为:基于Bagging抽样技术构建k个决策树基分类器,并采用等权投票法应用k个决策树进行分类,选择分类器投票结果最多的类别作为最后的分类结果[41]。本文中的随机森林基分类器是CART决策树。
2.3.4 自适应增强
自适应增强(Adaptive Boosting,AdaBoost)是目前Boosting算法中最常用的方法[42],其基本思路是选择包含决策树、SVM等在内的任何一种弱分类器,采用自适应样本训练策略,通过不断更新权重训练k个并行的弱分类器,最后通过加权将弱分类器组合为一个强分类器[43]。自适应增强具有泛化能力强、无参数调整、可用于大部分分类器等优势。本文中的AdaBoost的弱分类器为单层决策树,并运用OvO方法实现AdaBoost多分类。
2.4 专利质量分类结果评价
为评价不同分类算法的性能,本文选用准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1四个指标对各分类算法分类结果进行评价[35]。其中,对于某个特定类别,准确率是指分类正确的专利数与测试集总专利数的比率,计算公式如下:

精确率是指被正确分类的专利数与实际被分为该类别的专利数的比率,计算公式如下:

召回率是指被正确分类的专利量与该类别专利量的比率,计算公式如下:

在实际应用时,需要平衡精度和召回率,通常使用两者的调和平均数作为一个综合评价指标,称为F1,计算公式如下:

在式(2)~式(5)中,TPi是指被正确分为i类的数量,TNi是指被正确分类为非i类的数量,FPi是指将非i类分为i类的数量,FNi是指将i类分为非i类的数量。
2.5 最优专利质量评价模型评选
模型评选包括各模型内部最优参数调整及模型间性能对比两部分内容。以支持向量机为例,模型内部最优参数调整主要根据模型准确率、精确率、召回率及F1值对核函数等参数进行调整,从中选取结果最好的参数作为最优参数,进而得到SVM最优模型,其它模型不予详述。模型间性能对比主要是对SVM、ANN、RF及AdaBoost最优模型进行准确率、精确率、召回率及F1值的比较,并从中选出最优模型作为专利质量评价模型。
3 实证分析
当前,人工智能技术已成为第四次产业革命的重要驱动力及国际竞争的新焦点,世界各国正在加速对其进行布局,而有关人工智能技术的专利近几年增长迅猛。因此,面对快速增长的人工智能技术专利,如何构建有效的专利质量评价方法,实现对人工智能专利质量的准确评价和分类,识别出高质量和核心专利,对我国企业技术创新决策及政府专利管理决策具有重要意义。
3.1 数据获取与预处理
本文以“ABD=(“Artificial Intelligence*” or“AI*”)AND(PY>=(1997)AND PY<=(2007))”为检索式,在德温特专利数据库中进行人工智能技术专利检索,共检索到2 397条专利数据。下载检索到的专利数据,并清洗一些噪音数据,共获取2 157条人工智能技术专利,记为数据集1。此外,本文还对该领域所有专利(数据集2)、数据集1引用的专利(数据集3)、引用数据集1的专利(数据集4)、数据集1专利第一发明人发明的专利(数据集5)等进行收集、清洗和规范化存储,共获取791 831条数据。数据获取情况如表2所示。
表2 数据获取情况
数据集
|
名称
|
检索式
|
数量/条
|
数据集1
|
该领域研究专利
|
ABD=(“Artificial Intelligence*” or “AI*”)AND(PY>=(1997)AND PY<=(2007))
|
2157
|
数据集2
|
该领域全部专利
|
ABD=(“Artificial Intelligence*” or“AI*”)AND(DPRY>=(1963)AND DPRY<=(2017))
|
9227
|
数据集3
|
数据集1引用的专利
|
——
|
12085
|
数据集4
|
引用数据集1的专利
|
——
|
36924
|
数据集5
|
数据集1专利第一发明人发明的专利
|
IND=(“TZENG S”)AND CO=(“ETEN INFORMATION SYSTEM CO LTD”)
|
731388
|
3.2 基于机器学习的人工智能技术专利质量评价指标提取与数据处理
以专利质量指标体系为依据,从5个数据集中提取并计算相应指标数据,以获得与专利质量指标体系相对应的符合机器学习模型的专利数据。由于基于机器学习的专利质量评价涉及分类,因此需要对专利3年内被引次数、5年内被引次数、10年内被引次数及专利转让次数4个输出指标进行类别划分,并获取相应数据。考虑到数据可获取性,本文以3年内被引次数为依据设立分类标准。高被引专利是专利质量重要的测度手段。本文视专利3年内被引次数的Top2%为高被引专利[44],即专利被引次数大于15为高被引专利,类别记为C3。考虑到数据均衡性,将专利分为4类,分类标准如表3所示。
表3 数据分类标准
分类
|
C0
|
C1
|
C2
|
C3
|
被引次数
|
0
|
1-5
|
6-15
|
>15
|
转让次数
|
0
|
1-3
|
4-8
|
>8
|
依据表3中的分类标准,对获得的2 157条人工智能技术专利按3年被引次数、5年被引次数、10年被引次数及转让次数进行类别划分,结果如表4所示。
表4 专利分类情况
分类
|
C0
|
C1
|
C2
|
C3
|
总计/条
|
3年模型
|
1336
|
606
|
156
|
58
|
2157
|
5年模型
|
1041
|
743
|
228
|
144
|
2157
|
10年模型
|
562
|
764
|
402
|
428
|
2157
|
转让模型
|
1769
|
215
|
125
|
47
|
2157
|
在完成专利数据分类后,根据已获得的专利质量评价指标数据,得到一个关于人工智能技术专利质量评价的2 157×22矩阵,其中第1列为专利号,第2~18列为输入指标,后4列为输出指标,由于篇幅有限,仅列举此矩阵前20行数据,如表5所示。
表5 人工智能技术专利质量评价指标体系数据示倒
NO
|
输入指标
|
输出指标
|
TI
|
LI
|
EI
|
SI
|
TI
|
EI
|
HHI
|
PC
|
DC
|
TLC
|
TC
|
AS
|
CN
|
ICN
|
FN
|
PN
|
IN
|
SR
|
OT
|
CT
|
OTS
|
CTS
|
HC
|
SI
|
MI
|
LI
|
TN
|
US7307338B1
|
0.719
|
3
|
0
|
15.616
|
1
|
3.378
|
18
|
2
|
1
|
1
|
5
|
8.600
|
5
|
1
|
88
|
0
|
1.000
|
C1
|
C2
|
C3
|
C3
|
US7255166B1
|
0.892
|
10
|
7
|
27.553
|
2
|
3.047
|
20
|
1
|
1
|
1
|
1
|
0.462
|
65
|
2
|
357
|
20
|
0.933
|
C1
|
C2
|
C2
|
C0
|
US7255062B1
|
0.821
|
8
|
6
|
27.682
|
1
|
2.266
|
19
|
2
|
1
|
1
|
1
|
6.000
|
1
|
1
|
18
|
0
|
1.000
|
C1
|
C1
|
C3
|
C0
|
US7200580B1
|
0.710
|
12
|
0
|
18.946
|
1
|
3.523
|
46
|
3
|
1
|
1
|
2
|
0.000
|
1
|
1
|
6
|
6
|
1.000
|
C1
|
C1
|
C2
|
C1
|
US7129580B1
|
0.820
|
6
|
0
|
19.948
|
1
|
1.170
|
15
|
2
|
1
|
1
|
2
|
0.000
|
7
|
1
|
256
|
8
|
1.000
|
C1
|
C1
|
C2
|
C1
|
US7113603B1
|
0.694
|
3
|
0
|
27.502
|
1
|
7.055
|
1
|
1
|
1
|
1
|
1
|
0.667
|
3
|
1
|
59
|
7
|
1.000
|
C1
|
C1
|
C2
|
C3
|
US7039667B1
|
0.833
|
5
|
4
|
23.340
|
1
|
4.605
|
10
|
2
|
1
|
1
|
3
|
1.600
|
10
|
2
|
150
|
2
|
1.000
|
C1
|
C1
|
C1
|
C1
|
US7003403B1
|
0.917
|
15
|
55
|
22.401
|
3
|
5.690
|
81
|
10
|
1
|
2
|
4
|
13.333
|
6
|
1
|
176
|
15
|
1.000
|
C2
|
C2
|
C3
|
C2
|
US6981423B1
|
0.872
|
9
|
0
|
25.412
|
1
|
2.263
|
27
|
3
|
1
|
1
|
1
|
1.833
|
42
|
2
|
1417
|
45
|
0.944
|
C3
|
C3
|
C3
|
C1
|
US6960319B1
|
0.896
|
11
|
0
|
32.151
|
3
|
10.022
|
23
|
3
|
1
|
1
|
1
|
0.333
|
9
|
1
|
136
|
17
|
1.000
|
C1
|
C2
|
C3
|
C1
|
US6954678B1
|
0.937
|
24
|
3
|
21.499
|
2
|
3.033
|
31
|
6
|
1
|
1
|
4
|
0.581
|
86
|
2
|
1659
|
27
|
1.000
|
C2
|
C3
|
C3
|
C2
|
US6948381B1
|
0.887
|
14
|
0
|
25.947
|
1
|
2.471
|
54
|
5
|
1
|
1
|
1
|
1.833
|
42
|
2
|
1417
|
45
|
0.947
|
C2
|
C3
|
C3
|
C1
|
US6880313B1
|
0.968
|
40
|
0
|
35.830
|
1
|
3.310
|
11
|
2
|
1
|
1
|
2
|
0.000
|
1
|
1
|
80
|
0
|
1.000
|
C3
|
C3
|
C3
|
C1
|
US6866587B1
|
0.962
|
39
|
2
|
22.329
|
2
|
4.471
|
21
|
5
|
1
|
1
|
1
|
3.000
|
2
|
1
|
79
|
13
|
1.000
|
C1
|
C2
|
C3
|
C2
|
US6864331B1
|
0.735
|
3
|
0
|
32.840
|
4
|
1.247
|
22
|
3
|
9
|
1
|
2
|
0.800
|
5
|
1
|
34
|
2
|
1.000
|
C0
|
C0
|
C2
|
C1
|
US6851115B1
|
0.902
|
12
|
22
|
22.044
|
1
|
6.079
|
89
|
6
|
1
|
1
|
2
|
19.800
|
5
|
1
|
1471
|
0
|
1.000
|
C3
|
C3
|
C3
|
C2
|
US6834120B1
|
0.890
|
10
|
0
|
23.964
|
1
|
4.101
|
21
|
3
|
2
|
1
|
3
|
0.000
|
2
|
1
|
80
|
29
|
1.000
|
C1
|
C2
|
C3
|
C2
|
US6822107B1
|
0.375
|
1
|
0
|
28.096
|
3
|
1.266
|
18
|
6
|
1
|
1
|
3
|
7.430
|
172
|
1
|
3557
|
4
|
0.900
|
C1
|
C1
|
C2
|
C1
|
US6798914B1
|
0.927
|
20
|
0
|
27.200
|
1
|
4.403
|
7
|
4
|
1
|
1
|
2
|
0.000
|
1
|
1
|
7
|
6
|
1.000
|
C1
|
C1
|
C2
|
C2
|
US6763325B1
|
0.959
|
31
|
16
|
25.204
|
1
|
6.071
|
36
|
4
|
1
|
1
|
1
|
10.833
|
12
|
5
|
1346
|
82
|
1.000
|
C2
|
C3
|
C3
|
C2
|
注:TI指技术性指标,LI指法定性指标,EI指经济性指标,SI指主体性指标;HHI指技术原创性,PC指专利引证数,DC指文献引证数,TLC指技术生命周期,TC指技术覆盖范围,AS指申请时程,CN指权利要求数,ICN指独立权利要求数,FN指专利同族大小,PN指专利权人数,IN指发明人数,SR指科学关联度,OT指总体技术,CT指核心技术,OTS指总体技术实力,CTS指核心技术实力,HC指他引率,SI指短期影响,MI指中期影响,LI指长期影响,TN指专利转让
3.3 基于机器学习的人工智能技术专利质量评价模型构建
由表3可知,专利被引次数和转让次数两个专利质量表征指标均被分为4类,因此本文采用的4种机器学习模型均需构建4个模型,并分别记为3年模型、5年模型、10年模型和转让模型,共需构建16个模型。
3.3.1 基于SVM的专利质量评价模型
本文主要通过Python3.6的Sklearn库实现基于SVM的专利质量评价模型构建。首先,采用20折分层抽样交叉切分法进行试验;其次,对训练和测试数据进行相同缩放数据预处理;再次,选用线性核和径向基核函数进行性能对比,并对各核函数调参;最后,选择最优参数,完成基于SVM的专利质量评价模型构建。
3.3.2 基于ANN的专利质量评价模型
本文主要通过Python3.6的Keras库实现基于ANN的专利质量评价模型构建。首先,对数据零均值和单位方差进行归一化处理,并运用10折分层抽样交叉切分法进行试验;其次,确定网络结构,输入层为17个输入变量,输出层为4类指标,2个隐藏层;再次,选用ReLU、Softmax为激活函数,选用SGD为模型优化器,学习率为0.01,衰减系数为1e-6;最后,观察模型训练过程的Acc_loss曲线,选择其中训练和测试结果达到平稳状态的模型为最优模型。
3.3.3 基于RF的专利质量评价模型
本文主要通过Python3.6的Sklearn库实现基于RF的专利质量评价模型构建。其中,数据集的80%作为训练集,20%为测试集。模型调试主要是对随机森林中树的数量、最大树深及特征数量进行调整。本文用网格搜索寻找模型最优参数。
3.3.4 基于AdaBoost的专利质量评价模型
本文主要通过Python3.6开发实现基于AdaBoost的专利质量评价模型构建。首先,采用20折分层抽样交叉切分法进行试验;其次,对单层决策树弱分类器进行分类;再次,运用OvO构造k(k-1)/2个分类器对弱分类结果进行重新分类;最后,通过投票法汇总各分类器分类结果,实现AdaBoost多分类。
3.4 基于机器学习的人工智能技术专利质量评价模型评估
为评选出最优的基于机器学习的人工智能技术专利质量评价模型,本文选取准确率、精确率、召回率和F1值对模型进行性能对比。SVM、RF、ANN和AdaBoost四种模型测试集整体性能结果对比如表6所示。
表6 4种机器学习模型测试集性能指标对比
类别
|
准确率
|
精确率
|
召回率
|
F1
|
测试集数
|
3年模型
|
SVM
|
0.8
|
0.8
|
0.8
|
0.78
|
109
|
ANN
|
0.74
|
0.74
|
0.74
|
0.73
|
214
|
RF
|
0.76
|
0.71
|
0.74
|
0.72
|
432
|
AdaBoost
|
0.73
|
0.72
|
0.72
|
0.66
|
108
|
5年模型
|
SVM
|
0.77
|
0.78
|
0.77
|
0.76
|
107
|
ANN
|
0.74
|
0.74
|
0.74
|
0.74
|
218
|
RF
|
0.71
|
0.7
|
0.7
|
0.7
|
432
|
AdaBoost
|
0.75
|
0.76
|
0.75
|
0.74
|
107
|
10年模型
|
SVM
|
0.86
|
0.87
|
0.86
|
0.86
|
111
|
ANN
|
0.89
|
0.89
|
0.89
|
0.89
|
215
|
RF
|
0.92
|
0.91
|
0.91
|
0.91
|
432
|
AdaBoost
|
0.72
|
0.78
|
0.74
|
0.71
|
107
|
转让模型
|
SVM
|
0.92
|
0.93
|
0.92
|
0.92
|
106
|
ANN
|
0.89
|
0.89
|
0.89
|
0.88
|
217
|
RF
|
0.87
|
0.87
|
0.87
|
0.86
|
432
|
AdaBoost
|
0.89
|
0.89
|
0.89
|
0.88
|
108
|
在机器学习四分类分析中,唯一一个准确率大于0.25的类别为分析对象所属类别,即四分类问题的基准确率为0.25[42]。从表6中4种模型的整体性能指标看,各模型的准确率、精确率及召回率结果均大于0.7,因此本文构建的16个模型结果均可接受,其中SVM的3年模型、5年模型、10年模型和转让模型中有3个模型的性能均优于ANN、RF和AdaBoost,仅10年模型性能略低于RF和ANN,因此SVM为4种机器学习模型中的最优模型,其次是RF和ANN,最后为AdaBoost,其性能有待提高。
本文利用人工智能领域1997-2007年的历史专利数据构建专利质量评价模型,且本文所构建模型的输入指标一经专利公开即可获取,因此当新专利(如2020年公开的专利)数据输入模型时,模型可对输入专利的质量进行评价和预测。因此,该模型不仅为人工智能领域专利质量评估提供了可行和有效的方法,也为识别和预测人工智能领域潜在的高质量及核心专利提供了可能,进而可为企业技术创新决策和政府专利管理决策提供参考。
4 结语
面对海量专利数据,如何构建有效的专利质量评价方法,实现对专利质量的准确评价和分类,对于政府和企业专利管理决策与技术创新方向选择至关重要。针对目前专利质量评价研究存在的不足,本文首先提出一种新型专利质量评价指标体系,将专利开发主体评价指标纳入专利质量评价指标体系中,从专利技术性、法定性、经济性和主体实力4个维度构建较完善的专利质量评价指标体系;其次,根据新型专利质量评价指标体系,构建一种基于机器学习的专利质量评价方法,通过利用包含高质量专利的历史数据,完成基于机器学习的专利质量评价模型构建,根据已有学习规则快速对新输入专利的质量进行分类评价,并以人工智能技术专利为例进行实证研究,验证提出的专利质量评价指标体系和基于机器学习的专利质量评价模型的可行性及有效性。
基于机器学习的专利质量评价方法具有可量化、准确性高、易于管理等优势,有利于大规模专利质量分类评价智能化以及专利管理部门构建智能专利评价体系,在节约人力、物力的同时还能提高专利评价的准确性。因此,该方法有利于政府、企业专利管理决策和管理实践发展。
参考文献:
[1]马廷灿,李桂菊,姜山,等.专利质量评价指标及其在专利计量中的应用[J].图书情报工作,2012,56(24):89-95+59.
[2]MANN D L. Better technology forecasting using systematic innovation methods[J]. Technological Forecasting & Social Change, 2003, 70(8): 779-795.
[3]张杰,孙超,翟东升,等.基于诉讼专利的专利质量评价方法研究[J].科研管理,2018,39(5):138-146.
[4]李春燕,石荣.专利质量指标评价探索[J].现代情报,2008(2):146-149.
[5]WAGNER R P. Understanding patent quality mechanisms[J]. University of Pennsylvania Law Review, 2009, 157(6): 2135-2173.
[6]SUZANNE A S. Patent quality, patent design and patent politics[R]. Munich: Remarks Prepared as a Member of the Economic Advisory Group, European Patent Office, 2004.
[7]毛昊.中国专利调查综述:制度实践与研究拓展[J].科学学研究,2016,34(8):1169-1176.
[8]GRAF S W. Improving patent quality through identification of relevant prior art: approaches to increase information flow to the patent office[J]. Lewis & Clark Law Review, 2007, 11(2): 495-519.
[9]BURKE P F, REITZIG M. Measuring patent assessment quality——analyzing the degree and kind of (in) consistency in patent offices' decision making[J]. Research Policy, 2007, 36(9): 1404-1430.
[10]朱雪忠,万小丽.竞争力视角下的专利质量界定[J].知识产权,2009,19(4):7-14.
[11]BREITZMAN A F, NARIN F. Method and apparatus for chossing a stock portfolio, based on patent indicators: U. S. patent 6, 824[P]. 2001-01-16.
[12]孙玉涛,栾倩.专利质量测度“三阶——两维度”模型及实证研究——以C9联盟高校为例[J].科学学与科学技术管理,2016,37(6):23-32.
[13]胡谍,王元地.企业专利质量综合指数研究——以创业板上市公司为例[J].情报杂志,2015,34(1):77-82.
[14]LEE C, KWON O, KIM M, et al. Early identification of emerging technologies: a machine learning approach using multiple patent indicators[J]. Technological Forecasting & Social Change, 127(2018): 291-303.
[15]朱清平.专利权与专利质量[J].发明与革新,2002(7):20-21.
[16]筱雪,张媛.基于Innography平台的波音公司和空客集团专利分析[J].情报探索,2018(9):58-64.
[17]MIT Technology Review. The patent scorecard 2004[R]. 2004(107): 4.
[18]武丹.跨领域技术竞争态势分析[D].北京:北京工业大学,2016.
[19]高继平,丁堃.专利计量指标研究述评[J].图书情报工作,2011,55(20):40-43.
[20]TRAJTENBERG M. A penny for your quotes: patent citations and the value of innovations[J]. The RAND Journal of Economics, 1990, 21(1): 172-187.
[21]吴菲菲,张广安,张辉,等.专利质量综合评价指数——以我国生物医药行业为例[J].科技进步与对策,2014,31(13):124-129.
[22]LERNER J. The importance of patent scope: an empirical analysis[J]. Veterinary Record, 1994, 25(2): 319-333.
[23]CARPENTER M P, NARIN F, WOOLF P. Citation rates to technologically important patents[J]. World Patent Information, 1981, 3(4): 160-163.
[24]ALBERT M B, AVERY D, NARIN F, et al. Direct validation of citation counts as indicators of industrially important patents[J]. Research Policy, 1991, 20(3): 251-259.
[25]ERNST H. Patent information for strategic technology management[J]. World Patent Information, 2003, 25(3): 233-242.
[26]LANJOUW J O, SCHANKERMAN M. Patent quality and research: measuring innovation with multiple indicators[J]. The Economic Journal, 2004, 114(495): 441-465.
[27]DE RASSENFOSSE G. Do firms face a trade-of between the quantity and the quality of their inventions[J]. Research Policy, 2013, 42(5): 1072-1079.
[28]LEE Y G, LEE J D, SONG Y I, et al. An in-depth empirical analysis of patent citation counts using zero-inflated count data model: the case of KIST[J]. Scientometrics, 2007, 70(1): 27-39.
[29]肖国华,王江琦,魏剑.我国专利技术转移评价指标设计及应用研究[J].情报科学,2013,31(3):107-112.
[30]闫明,董丽.从专利角度分析溶菌酶药物技术创新现状及研发思路[J].中国药业,2018,27(1):1-4.
[31]MA Z, LEE Y. Patent application and technological collaboration in inventive activities: 1980-2005[J]. Technovation, 2008, 28 (6): 379-390.
[32]曹晓辉,段异兵.基因工程专利维持特征及影响因素分析[J].科研管理,2012,33(2):26-32.
[33]温芳芳.专利引文视阈下企业技术影响力的测度与比较——以“世界500强”汽车企业为例[J].情报杂志,2018,37(9):58-63.
[34]TRAPPEY A J C, TRAPPEY C V, WU C Y, et al. A patent quality analysis for innovative technology and product development[J]. Advanced Engineering Informatics, 2012, 26(1): 26-34.
[35]戴建国,张国顺,郭鹏,等.基于无人机遥感可见光影像的北疆主要农作物分类方法[J].农业工程学报,2018,34(18):122-129.
[36]黄衍,查伟雄.随机森林与支持向量机分类性能比较[J].软件,2012,33(6):107-110.
[37]DOLBEC J, SHEPARD T. A component based software reliability model[C]//Proceedings of the 1995 Conference of the Center for Advanced Studies on Collaborative Research. [S. I. ]: IBM Press, 1995: 19-29.
[38]BRETHOUR J. Estimating marbling score in live cattle from ultrasound images using pattern recognition and neural network procedures[J]. Journal of Animal Science, 1994, 72(6): 1425-1432.
[39]MISRA W M. Understanding neural networks as statistical tools[J]. The American Statistician, 1996, 50(4): 284-293.
[40]朱青,卫柯臻,丁兰琳,等.基于文本挖掘和自动分类的法院裁判决策支持系统设计[J].中国管理科学,2018,26(1):170-178.
[41]BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[42]付忠良.关于AdaBoost有效性的分析[J].计算机研究与发展,2008(10):1747-1755.
[43]FREUND Y, SCHAPIRE R E. Experiments with a new boosting algorithm[C]//International Conference on Machine Learning. San Francisco: Morgan Kaufmann, 1996: 148-156.
[44]刘红光,孙惠娟,刘桂锋,等.基于专利组合分析的新兴产业核心技术挖掘——以国际燃料电池汽车为例[J].情报杂志,2013,32(8):68-72,56.
作者简介:李欣(1980-),男,河南新蔡人,博士,北京工业大学经济与管理学院副研究员,研究方向为技术创新、技术预测;范明姐(1995-),女,河北定州人,北京工业大学经济与管理学院硕士研究生,研究方向为技术创新、技术预测;黄鲁成(1956-),男,河北徐水人,博士,北京工业大学经济与管理学院教授,研究方向为技术创新、科技与创新政策。