摘要:为能够快速准确地对高校发明专利质量进行评估,充分考虑专利的文本属性和结构化数据信息,基于深度学习技术构建基于GRU-Attention机制的高校发明专利质量评估模型,并通过引入衡量高校发明专利质量的关键指标及权重信息对初始模型进行改进。经验证,结合专家知识改进后的评估模型在稳定性和准确率上有明显优势,能够为高校发明专利质量评估提供有效的理论和实践支撑。
关键词:GRU,Attention机制,高校发明专利,专利质量
近年来,得益于中国政府对知识产权工作的高度重视,中国的发明专利数量取得了跨越式的发展。高校作为国家科学技术研究的重要前沿阵地,是国家创新体系中的重要组成部分,是国内科技创新的重要力量,其申请的专利数量和质量一直备受各界关注。高校专利的质量对于整个专利领域的质量发展存在着一定的引导作用,对专利的长远发展也起着重要的推动作用。然而,目前我国高校不足50%的专利维持年限高于5年,这一数据远低于国外高校专利维持时间的平均水平[1],且高校的有效专利实施率、产业化率、许可率和转让率等数据远低于企业。
随着专利申请数量爆发式增长带来了诸多的专利质量问题,因而学者们逐渐将研究目光聚焦到专利质量的评估上。但是在发明专利质量的评估和分类方面,大量工作和研究人员仍然应用传统的评估和分类方法来对专利质量进行评估和研究。综合国内外研究者对专利质量评估的方法,可分为基于专利引文、质量评价指标以及文本挖掘三大类方法。Mariani等[2]基于专利引文,提出了一种改进的专利引文计算和PageRank算法,降低了专利发布时间对评估重要专利的偏差性影响,根据专利发布t年后的平均排名位置来评估专利质量;孙冰等[3]基于手机芯片的专利引文数据,依据网络拓扑参数来确定专利引文网络中的核心专利,进而来判定专利质量;Huang等[4]为了简单有效地评价专利质量,建立了11个指标体系,提出了基于熵权法和改进TOPSIS的专利质量评价模型;Yoon等[5]建立专利质量系统层次结构,运用层次分析法结合文本挖掘、多元线性回归来开发专利质量评价模型;Lee等[6]提出结合专利指标和机器学习,选取18个输入指标和3个输出指标,利用前馈多层神经网络来捕获输入和输出指标之间复杂的非线性关系,从而评估新申请专利的质量水平;Liu等[7]提出了一种可量化的度量专利质量的模型,基于已有的专家测量专利质量的指标,运用机器学习来提取前向引用多、法院判决为“有效”的专利相关特征,并基于贝叶斯模型挖掘现有专利质量,同时验证了该模型可以客观度量处于专利生命周期各个阶段的专利质量;Lin等[8]基于专利引用网络的属性网络表征模型和基于注意力机制的卷积神经网络模型构建了专利质量的评估模型,从专利文本材料中提取语义表示,然后将他们的输出连接起来以预测新专利质量。
通过对这三类方法的文献研读,基于研究专利引文的方式来评估专利质量存在着严重的时间滞后性问题,在专利发布早期甚至是专利申请阶段,无法通过专利的被引量来评估早期的专利质量[2,9];基于评价指标的方法主观性较强,专利质量评价结果很大程度上取决于专家的经验与知识,忽略了专利文本内容本身隐含的一些客观信息[5,10];而第3种基于传统的文本挖掘方法,容易忽视专利文本的上下文信息之间的联系,也无法对序列进行处理,且忽略了专利的一些重要数据特征信息[6]。
2006年,Hinton等人[11]提出深度学习的概念,随着计算机性能的不断提升和深度学习算法的不断优化,深度学习在短时间内得到了快速发展,出现了许多深度学习模型及框架,并广泛地应用于各个行业。深度学习的快速发展与应用,为高质量发明专利评估、发明专利质量分类问题提出了新的解决方法和思路。Rao等[12]将词嵌入和长短期记忆网络(LSTM)应用于政策文本分类问题中,解决依靠上下文信息进行文本分类的问题。李超[13]对传统的卷积神经网络模型进行改进,采取结合LSTM网络模型的方法提升词序语义学习和特征挖掘的能力。研究人员对LSTM网络进行简化,提出了一种新的网络结构GRU(Gated Recurrent Unit)[14]。但是由于GRU分类无法体现每个隐层输出重要程度的问题,孙明敏[15]在GRU的基础上,加入了注意力(Attention)机制,设计了GRU-Attention分类模型,并验证了该模型对分类效果的提升。学者Chen等[16]将注意力函数引入GRU中,提出GRUA模型,从正在进行的对话中提取客户行为的重要隐藏特征,以了解客户意图,提高产品推荐的准确性。Rush等[17]提出了一种基于注意力机制的双向GRU网络的识别模型,通过两个相互独立的GRU网络来进行特征提取,同时通过注意力机制自适应地对各时刻隐层特征赋予不同的权值,最后根据加权求和后的隐层特征进行目标的识别与分类。
综合现有的研究方法、研究技术及专利数据的特点,本文研究思路是在构建初始的基于GRU-Attention机制的高校发明专利质量分类模型的基础上,引入高校发明专利质量关键指标及权重,将其与Attention机制在GRU隐层输出的特征及权重相融合,对Attention机制进行优化,并利用实际数据对优化后的基于GRU-Attention机制的高校发明专利质量分类模型的有效性和分类效果进行了验证。
1 基于GRU-Attention机制的高校发明专利质量评估模型构建
1.1 GRU模型
GRU神经网络属于循环神经网络(RNN),RNN的提出是为了解决训练过程中的记忆依赖和梯度问题,它借鉴人类思考问题的行为,对于处理序列数据有很好的效果,随着研究的不断深入,RNN在序列化数据的领域应用越来越广泛,也取得了良好的成效。传统的神经网络基于孤立元素假设,但事实上元素之间并不是孤立存在的,在数据训练中元素之间的依赖性也很重要,循环神经网络可以考虑到元素之间的关系,也就是增加了记忆功能,将节点的输入和输出和上一个节点联系起来,更加符合人类思维行为。简单加入记忆功能后人们发现在时间轴上RNN出现了梯度消失无法解决长期依赖的问题,为了解决RNN存在的这些问题,研究者提出了多种RNN的变体模型。
LSTM(长短期记忆网络)就是RNN变体中一种广泛应用的经典变体。在实际操作中,RNN无法成功学习到长环境中词之间的相关信息,也无法对间隔比较长的词进行有效预测。因而,出现了可以解决这一问题的特殊RNN模型——LSTM。和原始循环神经网络不同,长短期记忆网络要控制隐藏状态和神经单元状态的向量,通过输入门、遗忘门、输出门控制更新,以此来解决RNN面对长序列问题的缺陷。但LSTM网络存在一些缺点,即神经网络内部机制复杂,有很多参数要控制,而且在训练过程中往往花费大量的时间。
为了进一步改进这些缺陷,Cho等人[18]在2014年提出了更为简单的LSTM变体模型——GRU(门控循环单元),将LSTM的忘记门和输入门合成了一个单一的更新门、同时还混合了细胞状态和隐藏状态,加诸其他一些改动。GRU模型由更新门和重置门两个门组成,结构简单、容易理解,需要控制的参数少,而且有较好的收敛性。其简单的模型结构如图1所示。
较多的实验表明,GRU相比于传统的RNN模型,训练效果相似,但由于其参数较少,收敛快,因此相对容易训练,且GRU在过拟合问题上表现优异,较少表现出过拟合现象。因此,GRU训练的计算开销更小,速度更快,适用性更强,广泛地应用在自然语言处理的领域。
1.2 Attention机制
一般的深度学习过程在提取文本特征的时候是无差别的,这样就会造成一些重要信息权重的丧失,为了解决这个问题,研究者提出了注意力机制(Attention Mechanism)来提高对重要信息的识别能力。注意力机制的思想是对于输入信息赋予不同的权重,使模型更加注重有用信息而减弱无用信息的影响,该模型目前在不同类型的任务中得到了广泛的应用,且通过对比发现应用效果明显比不应用此机制的效果优秀。目前,常见的注意力机制主要分为3种:全局注意力机制、局部注意力机制和自注意力机制。
全局注意力类似于传统的注意力,上下文数据信息的权重会基于编码的所有隐藏状态。全局注意力的模型如图2所示。全局注意力需要在序列中所有的时间步上进行计算,计算代价较高,开销较大。
相比于全局注意力机制的高开销,局部注意力机制用固定窗口大小去减少计算力,其模型如图3所示。尽管局部注意力机制计算代价相对较低,但是局部注意力可能会受到预测向量的影响而降低准确率。因此,实际应用中全局注意力机制更为普遍。
自注意力机制区别于传统的注意力机制,它不必依赖外界信息源,通过自学习更新参数,机制为自身对自身的权重。而传统的注意力机制是靠外部信息与内部经验相互对齐,机制为输入对输出的权重。其机制计算方式大致为三阶段:第一,计算元素与关键字(key)的相似度;第二,标准化之前的得分值;第三,加权求和特征权重系数。
1.3 GRU-Attention机制模型构建
由于发明专利数据是由一系列可表达专利信息内容的外部特征与内容特征构成的,这些特征信息用结构化数据或者非结构化数据以文本或图像的形式表达,在通过一般的机器学习进行文本分类时,需要去创建复杂的特征工程去提取文本特征。而基于深度学习自动获取特征表达,解决了人工特征工程的问题,操作简单,人工依赖度低,得到了广泛应用。
由于GRU模型可以很好地处理长期记忆、通过保留长期记忆信息更准确的进行预测,且模型参数设置简单,训练速度较快,符合高校发明专利数据特征,同时专利文本有很强时效性,上下文信息也有很强的关联性,这些特点使专利文本分类的特征较难提取,且影响高校发明专利质量的一些重要的结构化数据也对专利的质量分类有举足轻重的影响,也需要被重点关注,因此,本研究引入注意力机制来解决这一问题。
GRU网络的单体结构图如图4所示,在当前时刻t,基于上一时刻的输出ht-1与当前时刻的xt进行计算,计算原理如以下公式所示,rt为重置门,zt为更新门。
获取到前面的门控状态后,利用重置门得到新数据(ht-1×rt),然后把新数据与此刻xt合并计算,最后经过tanh激活函数处理得到当前ht。即得到下式中的ht:
此刻的ht是输入xt的函数,也是候选隐藏层,rt可以控制记忆信息的量,使用控制门将当前ht和上一时刻的ht-1进行处理,即可得到最终的隐藏层信息。更新计算公式如下所示。
这里的zt为门控信号,取值在0~1,它控制数据信息的遗忘量,数值越接近0,表示需要遗忘的信息量越多。
图5中的输入为数据预处理后的各个词的向量表示X1,X2,X3,…,Xi,GRU网络模型依靠这些输入进行计算,输出h1,h2,h3,…,hi,在隐藏层中通过Attention机制计算出注意力概率分布值a1,a2,a3,…,ai,此时就可以通过特征提取获得一些具有关键特征的核心词,计算公式如下。
其中,对于当前时刻i,ei是隐层状态向量,wi和Wi指权重系数矩阵,bi是偏移量,hi为注意力概率分布值,依据以上公式能计算出特征向量v。前面Attention层的输出变为输入,经过softmax函数处理后进行专利质量的分类,输出预测标签y,计算公式如下。
2 高校发明专利质量评估模型优化
在上文构建的GRU-Attention网络算法中存在某些专利评估结果置信度偏小的情况,因此本文引入专利质量关键指标的权重信息,在机器分类的基础上,结合专家知识,来改善分类结果置信度偏小的情况。
2.1 关键指标设计与权重确定
国际上现有的衡量专利质量的关键指标体系主要分为3种:CHI指标、Ernst专利质量指标和中国国家知识产权局专利质量指标体系。分析发明专利质量的影响要素,参考现有的评估体系,综合考虑发明专利在初始的申请阶段指标数据获取、使用和后续专利质量分类模型的可操作性,本文以评估高校发明专利质量为目标,构建了技术质量、法律质量和实用性质量3个准则层指标,并将每个准则层指标继续分解得到科学关联度、引用专利文献数量等共计11个方案层指标。
同时利用层次分析法依据构建的高校发明专利质量评估关键指标体系,设计了关键指标调查问卷,邀请吉林大学、山东大学、中国科学院大学和北京交通大学等科研机构中专利研究领域的42位专家进行调查问卷填写,从而处理计算得出各指标的权重,为模型的改进提供理论和数据支撑。具体的汇总结果见表1。
2.2 GRU-Attention机制模型优化
当评估结果置信度小于某个阈值或该文本拥有最大和次大分类可能性的差别较小时,重新生成注意力分布概率的语义编码和特征向量,具体流程如下:
(1)构建GRU-Attention算法。利用上文的GRU-Attention模型,首先进行词嵌入操作,将输入的信息变为二维特征矩阵,然后基于Attention机制进一步提取强化高级特征。
(2)计算注意力分布概率的语义编码,公式如下。
式中,aki指的是节点i对于k的注意力概率权重值。T为输入序列的元素数。v,W,U为权重矩阵,hi表示第i个元素的隐藏层状态,hk指的是最后输入对应的隐藏层状态。通过计算历史节点和最后节点的关系得分值,进而计算所占比重,依据上述两个计算公式计算得到输入的注意力概率分布值。
(3)计算Attention语义编码和特征向量,隐藏层状态值与注意力概率权重合并计算得到语义编码C,再将历史节点的语义编码和文本向量作为输入得到的当前节点的隐藏层状态值Hk′,此时的Hk′就是包含历史节点权重信息的特征向量。
(4)训练好GRU-Attention网络模型,通过计算待分类文本的各项分类结果的可能性,最终根据计算的可能性值输出待分类文本的预测类别:
(5)若步骤(4)中文本的probtext最大值偏小,置信度较低,或者专利类别区分度较小(小于0.05),将通过专利质量评估修正算法对(3)中的C进行更新,依据前文构建的方案层指标及其权重B1~B12/w1~w12,重新生成注意力分布概率的语义编码和特征向量C′和H′k′,如下式所示,后继续进行第四步操作。
3 模型验证
3.1 实验设计
专利的法律状态分为有效、失效和审中3种,有效专利是指专利在获得授权后,现仍处于有效状态的专利,失效专利是指由于各类主、客观原因而丧失或者未获得专利权的专利,而审中专利是指目前处于审查和审批暂未获得专利权的专利。由于有效专利和失效专利经过了完整的专利审查流程,而审中的专利由于暂未完成专利授权流程,大量研究证明,涉及诉讼、转让或者获奖的专利通常比其他专利具有更高的价值,但由于获奖专利数据获取比较困难,因此,本研究将涉及诉讼和转让的专利界定义为“高质量专利”。如果专利因未通过专利授权、或已授权又被宣告无效、或因其他各种原因而失去专利保护权,从专利的法律稳定性、技术创新性和实际应用性方面,这类专利都存在明显不足,因此,可以将其认定为“低质量专利”。而获得专利授权却并未发生转让或诉讼的专利则被认定为“普通质量专利”。
采用此分类方式,对高校发明专利数据库中的21万条专利数据进行标注,由于审中专利尚未完成专利授权流程没法标注,所以,只能对有效专利和无效专利进行标注,则将非审中专利分为4个类别——“诉讼”“转让”“有效”和“无效”,其中标注为“诉讼”和“转让”的有效专利类别表示高质量的专利,标注为“有效”的有效专利类别表示普通质量专利,而标注为“失效”的失效专利类别表示低质量的专利。
因此,对模型进行验证的实验从有标注的专利数据中按照不同类别的比例随机抽取了23000条专利数据构成实验数据集,再按照大概10:1:2的比例从实验数据集中随机抽取专利,形成训练集(17300条)、验证集(2000条)和测试集(2700条)。然后按class-content即类别-内容规则对整个数据集进行切分,专利文本的每一行都为该专利的文本和标注信息。
数据准备好后,先使用训练集和验证集的数据对所构建的GRU-Attention机制模型与改进的GRU-Attention机制模型进行迭代训练,训练环境为DeepLearning框架TensorFlow 1.8.0,待验证集分类的准确率不再提升之时,意味着模型训练完毕。最后使用测试集的数据来验证训练之后的两个模型对专利质量类别识别的有效性。
3.2 参数设置
(1)词向量维度:在衡量词向量语言特征时,维度设置的太小对于充分表达文本特性存在着一定的困难,就此情况而言,词向量维度设置的越大越好,然而诸多试验表明过大的词向量维度会大大增加计算量,从而影响模型整体的训练速度,本实验根据计算性能和具体任务设置的词向量维度为64维,
(2)dropout参数:dropout可以有效降低模型训练过程中出现的过拟合现象对结果的影响,dropout反映的是在DeepLearning的训练中,按照一定的概率将一些神经网络单元暂时丢弃,本模型设置的dropout参数为0.5。
(3)隐藏层神经单元:确定训练集后,输入和输出层的神经单元节点数随之也能确定,但是隐层数和隐层节点数却很难定下来。如果隐层节点比较少,那么神经网络不能具有较好的信息处理及学习能力,隐层节点过多又会导致网络复杂度增加,使训练的速度极大降低。本实验最终设置隐层神经单元数为128。
(4)batch_size:batch_size设置的太大可以提高训练速度,但会占用很高的内存率也可能降低训练准确率,设置的太小会造成训练速度很慢。因此一般选取32~256之间的数值,本试验选取的batch_size为64,指的是一次性将64个数据输入到模型中对模型进行训练,进而完成一次模型参数计算和参数更新。
3.3 模型性能评价指标
深度学习中对分类算法的性能评价指标主要有准确率、精确率、召回率及F1值等。
(1)准确率是性能评价中最直观、最普遍的一个指标,指的是预测正确的样本数占总样本数的比例,见式(17)。
(2)精确率指在预测样本中实际的正样本数占所有的正样本数的比例,见式(18)。
(3)召回率指预测为正样本的数占所有实际为正样的比例,见式(19)。
(4)F1值是精确率和召回率的调和值,见式(20)。
其中TP(True Positive)指的是预测和实际都为正;
FP(False Positive)指的是误报,匹配不正确。预测为正、实际却是负;
FN(False Negative)指的是漏报,没有正确查找出匹配,预测是负、实际却是正;
TN(True Negative)指的是预测为负、实际也为负。
3.4 实验结果对比及分析
针对高校发明专利质量的类别,本文进行了GRU-Attention机制和改进的GRU-Attention机制的对比实验,并对结果在精确率、召回率等方面进行评价。
使用训练集和验证集对GRU-Attention机制模型进行训练,第4次迭代训练后(如图8所示),验证集分类的准确率就不再增加,最终准确率维持在75%左右,训练中最佳效果为77%。然后对测试集中的2700条专利数据进行类别识别,结果如图6所示,可知测试集专利类别识别的准确率为77.41%。但是模型对于“有效”类别的识别结果欠佳,召回率和F1值偏低,其余3个类别的识别效果较好。
使用训练集和验证集对改进GRU-Attention机制模型进行训练,在保持GRU模型其他参数不变的情况下,将衡量高校发明专利质量的关键指标权重信息添加到向量中,改进后GRU-Attention机制模型的实验效果如图7所示,在第八次迭代后停止优化(如图8所示),改进后的模型对测试集专利类别识别的准确率为86.84%,比初始GRU-Attention机制模型准确率提高了9%。
4 结论
本文首先分析了高校发明专利质量的现实问题,即高校发明专利数量发展迅速,质量发展却差强人意,整体水平较低,明确了快速准确识别高校发明专利质量的现实需要。在对现有解决方案和技术研究进行梳理和综述的基础上,提出了基于GRU-Attention机制来评估高校专利质量的新方案。
在分析专利数据特征的基础上,构建了GRU-Attention机制模型来评估高校发明专利质量,同时引入衡量高校发明专利质量的关键指标及权重信息来对模型进行改进,通过专家知识改进GRU-Attention机制。利用高校非审中专利数据对改进前后的模型的性能进行验证。验证结果是,改进后的模型在迭代训练中表现出更好的稳定性和准确率,对测试集识别的准确率由77.41%提升至86.84%,可见,改进后的GRU-Attention模型在高校发明专利质量识别方面具有更高的有效性。
因此,本文充分结合专利的文档信息和结构化数据信息,综合专家知识,主客观相结合,构建了改进的基于GRU-Attention机制的高校发明专利质量评估模型,为发明专利质量评估和预测提供了一种新的思路和方法,为各科研单位、企业甚至于国家在专利布局上提供一定的理论和实践的支撑。
参考文献:
[1]乔永忠,文家春.国内外发明专利维持状况比较研究[J].科学学与科学技术管理,2009,30(6):29-32.
[2]MARIANI M S,MEDO M,LAFOND F. Early identification of important patents:design and validation of citation network metrics[J]. Technological Forecasting and Social Change,2019(146):644-654.
[3]孙冰,徐晓菲,苏晓.技术扩散主路径及核心企业的识别研究:以手机芯片专利引文网络为例[J].情报学报,2019,38(2):201-208.
[4]HUANG L C,LIU C W. Patent quality evaluation with entropy weight method and improved TOPSIS:the case of geriatric technology[C].Frankfurt:IEEE Computer Society,2018:156-164.
[5]YOON J,SONG J,RYU T-K. Quantifying the process of patent right quality evaluation:combined application of AHP,text mining and regression analysis[J]. Journal of Society of Korea Industrial and Systems Engineering,2015,38(2):17-30.
[6]LEE C,KWON O,KIM M,et al. Early identification of emerging technologies:a machine learning approach using multiple patent indicators[J]. Technological Forecasting and Social Change,2018,127:291-303.
[7]LIU Y,HSEUH P,LAWRENCE R,et al. Latent graphical models for quantifying and predicting patent quality[C]//ACM.AcmSigkdd International Conference on Knowledge Discovery & Data Mining. Orlando:ACM,2011:1145-1153.
[8]LIN H,WANG H,DU D,et al. Patent quality valuation with deep learning models[M]//PEI J,MANOLOPOULOS Y,SADIQ S,etal. Database Systems for Advanced Applications. New York:Springer,2018.
[9]NARIN F,ALBERT M,KROLL P,et al. Inventing our future:the link between Australian patenting and basic science[R]. New Jersey:CHI Research Inc,2000.
[10]张杰,孙超,翟东升,等.基于诉讼专利的专利质量评价方法研究[J].科研管理,2018,39(5):138-146.
[11]HINTON G E,SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science,2006,313(5786):504-507.
[12]RAO A,SPASOJEVIC N. Actionable and political text classification using word embeddings and LSTM[EB/OL].(2016-07-08)[2020-05-20].https://arxiv.org/abs/1607.02501.
[13]李超.基于深度学习的短文本分类及信息抽取研究[D].郑州:郑州大学,2017.
[14]CHUNG J,GULCEHRE C,CHO K,et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[EB/OL].(2014-12-11)[2020-05-20]. http://export.arxiv.org/abs/1412.3555.
[15]孙明敏.基于GRU-Attention的中文文本分类[J].现代信息科技,2019,3(3):10-12.
[16]CHEN J,ABDUL A. A session-based customer preference learning method by using the gated recurrent units with attention function[J].IEEE Access,2019,7:17750-17759.
[17]RUSH A M,CHOPRA S,WESTON J. A neural attention model for abstractive sentence summarization[J]. Computer Science,2015,6:1134-1146.
[18]CHO K,VAN MERRIENBOER B,GULCEHRE C,et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[EB/OL].(2014-06-03)[2020-05-20].https://arxiv.org/abs/1406.1078.
作者简介:谢祥(1978—),男,江西黎川人,副教授,博士,主要研究方向为信息管理与信息系统、文本挖掘、科技教育政策量化研究;马晓雅(1994—),女,山西晋中人,硕士,主要研究方向为文本挖掘、数据处理、区域创新研究;卢彤(1997—),女,河南南阳人,硕士研究生,主要研究方向为数据挖掘与分析;张婧(1988—),女,山东泰安人,博士,博士后,主要研究方向为文本分析、数据挖掘与分析等。