文献资源

当前位置: 首页 -> 资源导航 -> 文献资源 -> 正文

基于专利的技术机会识别:深度学习领域的案例分析

信息来源:《科技管理研究》2021年第12期 发布日期:2021年09月03日 10:27

摘要:为及时有效地识别潜在技术机会,采用文本挖掘和异常值检测的方法,提出一种基于专利文本的技术机会识别方法。首先采用文本表示模型Doc2vec技术对专利摘要进行建模,以更深层表征文本语义信息;然后利用基于密度的离群值检测算法,识别出具有潜在技术机会的专利方向;最后以深度学习领域潜在技术识别为例,构建专利检索式并收集458条专利文献作为数据集。实证结果总结出4类主题共10个潜在的技术机会,验证了该基于专利的技术机会识别方法的有效性,可为企业相应技术应用、研发和创新提供参考。

关键词:专利技术,技术机会,技术识别,专利分析,文本挖掘,深度学习

1 研究背景

随着科技和信息水平快速发展,企业的创新能力逐渐成为其竞争力的一个重要衡量标准。作为技术研发和创新的前提,技术机会识别逐渐受到企业的重视。黄鲁成等[1]指出,技术机会可以被划分为某领域前所未有的新技术或是在现有技术基础上改进的新技术,通过对这些技术进行分析,可以为企业提供重要的研发情报和参考方向。

技术机会识别指在特定技术领域内发现潜在的技术趋势和方向,而技术机会的获取和识别往往需要挖掘并分析海量的期刊、专利、报告等数据库,其中专利文献作为技术宝库,承载着人类技术创新的进步与发展,蕴含丰富的技术情报、研究成果和前沿信息;同时,因其具有内容可靠、数据海量、格式规范等优点,在学界和工业界广泛应用。面对海量的专利数据集,仅靠人工判断很难得到全面而客观的结果,因而一些研究借助数据挖掘等手段应用于专利分析,例如卞秀坤等[2]、马婷婷等[3]和冯仁涛等[4]采用专利数据制定研发战略和产品布局,分析一定时期内的技术发展状况和趋势,寻找潜在的技术机会。

异常检测旨在识别离群值,即发现与群体差异较大的个体。常见的异常检测应用包括网络检测、用户异常行为检测等,例如,费欢等[5]基于传感器网络多模态数据,提出了一种对传感器异常数据的检测方法;宋海涛[6]等针对用户行为特点,提出了一种基于模式挖掘的行为检测方法。对于技术机会的识别问题,关杏彬[7]指出早期阶段的技术创新或改进往往区别于主流技术,而这将伴随离群专利的产生。因此,通过异常值检测的手段识别离群专利,有利于识别潜在的技术机会。

为此,本研究采用文本挖掘和异常值检测的方法,帮助企业进行潜在技术机会识别,为企业的技术研发和创新提供方向,并通过实例分析验证该方法的有效性。

2 国内外相关研究

2.1 专利文本挖掘

现阶段专利分析常通过专利统计、计算机等手段对专利文件的信息进行处理和分析,进而收集到有价值的情报以支持决策过程。近年来,文本挖掘技术在专利分析领域得到广泛应用并快速发展,这是因为该技术可以快速、高效处理大批量文本数据,提取和挖掘潜在的信息和模式。如,陈伟等[8]提出一种关键共性技术识别框架,首先采用隐含狄利克雷分布(latent Dirichlet allocationLDA)主题模型对专利摘要文本进行主题建模,得到详细的技术主题分类,然后利用PageRank算法衡量技术主题的关键性;Kim[9]结合深度学习提取专利文本的特征,以实现专利的向量表示,然后采用深度嵌入的聚类方法实现专利的自动聚类;王京安等[10]提出了基于专利的技术趋势分析框架,引入面向服务的架构(SOA)对专利之间的相似度进行计算,然后采用聚类和专利地图等工具对液晶材料技术领域的技术趋势进行实证分析。

2.2 异常值检测

异常检测方法主要分为监督、半监督、非监督3种基本方法,这3种方法的主要区别在于使用标签的程度。徐琴珍等[11]提出了一种有监督的局部决策分层支持向量机检测方法,该方法结合二叉树结构和信息增益准则,实现了在局部决策监督下具有稳定性和有效性的异常检测学习模型。Li[12]考虑到真实场景中的标签训练样本有限,将半监督学习方法应用于异常检测系统,利用未标记数据来自动标记数据,节省了昂贵的数据标记成本且通过实验证明该方法优于传统的有监督分类器。但是由于技术机会未知,并无任何标签提前标注,因此识别技术机会常采用非监督的异常检测算法,例如,Wang[13]结合基于角度的异常点检测方法和采用可视化工具缓解了词汇不匹配的问题,并可以在高维数据空间对非结构化专利数据进行分析,最终识别出技术机会以帮助企业制定技术战略;翟东升等[14]通过专利摘要构建相似度矩阵进行多维尺度分析,然后结合3种无监督的异常检测算法和发明问题解决理论(TRIZ)挖掘出技术机会。

3 研究方法与模型

3.1 研究框架

本研究结合Doc2vec技术和LOF算法对专利文本数据进行挖掘和分析,以探索潜在的技术机会,研究模型框架如图1所示。首先,通过专利数据库进行专利检索和筛选,形成最终的专利数据集,然后对专利的摘要文本进行一系列预处理,以标准化文本数据提升后续文本分析性能;其次,采用Doc2vec对专利文本进行表示学习得到专利的向量描述,以反映专利文本的语义信息和语序信息;最后,采用基于密度的离群值检测算法识别异常专利,以探索目标领域潜在的技术机会。本研究以深度学习领域为例,对上述潜在技术识别方法进行案例分析。

3.2 Doc2vec文本建模

Doc2vec建立在Word2vec基础上[15],该算法采用无监督算法对不同的文档进行表征学习。与Word2vec相似,Doc2vec的两种训练方式为句向量分布记忆模型(distributed memory model of paragraph vectorsPV-DM)和句向量分布词袋模型(distributed bag of words of paragraph vectorsPV-DBOW),PV-DM模型根据上下文预测目标词概率,而PV-DBOW模型由目标词预测上下文。Doc2vecWord2vec不同之处在于,其输入层增加了一个新的文档向量,在多次训练后该模型可以得到词向量和文档向量。与传统的词袋模型相比,Doc2vec在构造文档向量的过程中考虑到单词的顺序和语义信息,在解决文本分类、情感分析等问题上应用广泛。

由于PV-DM算法表现优于PV-DBOW,因此本研究选取PV-DM作为训练框架,如图2所示,其基本思路是根据上下文词和文档信息预测当前词wt的概率。PV-DM算法的目标函数为:

 1

Doc2vec的基本思想如图2所示,假设有N个文档,每个词、文档被映射成一个固定维度的向量,上下文单词{wtiwti}通过滑动窗口产生,文档Paragraph可被视作一个单独的词,用于存储文档的主旨信息;最后将单词向量和文档向量进行平均或拼接,对目标词wt的概率进行预测,并采用梯度下降和反向传播对模型进行训练[16]

3.3 局部离群因子(LOF)算法

离群点检测的主要目的是有效地识别出数据集中的异常数据,基于这一思想,本研究旨在通过识别异常专利以挖掘潜在的技术机会。常用的无监督离群点检测方法包括基于距离、基于聚类、基于密度等方法,其中LOF算法是较为具有代表性的基于密度的方法,该算法为每个数据点分配一个基于邻域密度的离群因子,根据阈值进而判断该点是否为离群点[17]。相比于传统的基于距离和聚类的算法,LOF算法克服了其他算法没有考虑数据不同密度区域的短板,且能对每个数据点的异常程度进行量化,因此我们考虑将该算法应用于专利离群值点检测中。

基于LOF的异常检测算法的局部离群因子由局部可达密度决定,局部可达密度lrdk定义如下:

 2

式(2)中:reach_distkpo)为数据点po的可达距离;Nkp)为点pk近邻数量。式(2)反映了数据点p的可达密度为该数据点与邻近数据点的平均可达距离的倒数,若点p所处区域比较密集,则reach_distkpo)取值偏小,从而该点局部可达密度lrdkp)取值偏大;反之亦然。

局部离群因子定义如下:

 3

式(3)反映了数据点p所在区域在数据集中的疏密程度,LOFp)的值越大,表示该区域越稀疏。

以上通过Doc2vec得到专利文档的表示向量后,将专利文档向量的每一维度视为该文档的不同特征,然后采用LOF算法对专利异常点进行定量描述。

4 案例分析

4.1 专利检索

采用欧洲专利组织(EPO)提供的全球专利统计数据库(PATSTAT)作为数据源进行检索,该数据库对全球100多个国家或组织的专利信息进行收录,其提供的专利情报具有高度的权威性,在学术界得到广泛应用。以深度学习为检索对象,相关专利检索主题为“deep learning”,检索的专利数据包括专利号、申请日期、标题、摘要等内容。同时通过国际专利分类(IPC)表对检索领域进行范围限制,采用的分类号及相关说明如表1所示。对标题和摘要的检索重点为深度学习领域,检索时间设定在2014—2019年,专利的申请机构选取为美国。结果共检索出468条专利记录,通过筛选摘要为空专利,进一步得到458项专利(以下简称样本)。

4.2 专利数据文本分析

采用Python编程实现对专利数据的文本分析。首先,采用ReNhk库对专利的摘要文本数据进行预处理,包括去除停用词、小写化、去除特殊符号、词形还原等操作。其次,使用GensimSklearn库实现Doc2vec建模、PCA降维等功能,通过上述Python库对专利文本信息进行预处理。之后,根据本文实验和以往经验,分别设置模型参数,对Doc2vec设置模型为PV-DM,窗口长度设定为7,每个专利文档的向量长度设置为100维,即每一个专利被表示为100维向量,词最小出现次数为2,同时设置epochs30以提升计算准确度。租后,采用LOF算法进行异常值检验,分别设置最近邻k51020,根据不同最近邻取值k并选取LOF阈值为1,得到不同专利的离群点。但是对于这些异常点代表的专利,还不能认为就是潜在技术机会,这是由于本研究采用的算法可能存在一定噪声,因此,综合不同取值为k的异常点专利进一步进行人工核查后,对潜在技术机会进行总结。

Pouyanfar[18]指出,深度学习技术在自然语言处理、图像处理、语音处理和其他领域广泛应用,本研究借鉴这些应用分类方式作为本文的分类标准,对收集得到的离群点专利进行归类,然后对深度学习领域的潜在技术机会进行归纳总结,如表2所示。其中:

1)自然语言处理旨在帮助计算机理解人类语言,相关的任务包括机器翻译、文档分类、语义分析等。如专利US10579729提出一种快速、自适应纠正拼写错误的方法和系统,利用基于上下文敏感的深度学习模型,为企业搜索引擎的拼写检查提供支持[19];专利US15/690721提出一种根据电子医疗记录文本总结和预测医疗事件的系统,根据系统汇总的健康记录训练深度学习模型,以预测未来的临床事件[20]

2)在图像、视频等视觉数据处理上,以卷积神经网络为主的深度学习技术广泛应用,主要内容包括图像分类、目标识别、视频处理。如专利US10402649提出一种结合深度学习的增强现实显示装置,通过多个传感器接收不同类型的传感器数据,然后通过神经网络实现光照检测、面部识别、对象检测等任务[21];专利US10402653设计了一种基于视频的异常检测的摄像机,配备基于高阶卷积神经网络的处理器,以对即将发生的异常任务进行预测[22]

3)语音处理指对电信号或模拟信号进行操作的过程,相关应用包括语音理解、语音识别、机器合成等。如专利US10445597利用车辆传感器收集音频数据,采用深度学习算法对音频数据进行分类,以识别物品的形状和大小特征[23];专利US10540957设计了一种端到端的语音转录系统,无需对模拟环境音的组件进行人工设计,而是通过循环神经网络处理较为复杂的噪声环境[24]

4)随着深度学习展现出更强的学习能力和适应能力,一些特殊领域结合深度学习算法和技术以解决现实问题,同时围绕特定领域而设计的专利相对较少,存在大量发展空间,因此也可视为潜在技术机会。如专利US15/682698利用大数据和深度网络对目标区域的犯罪概率进行预测[25];专利US10198693通过交通监控系统获取车辆运行和驾驶环境数据,利用深层神经网络提取驾驶员的驾驶行为特征并进行分析[26];专利US10255628采用基于深度学习模型和基于分解的协同过滤,为用户提供商品推荐[27];专利US10935940提出一种建筑管理系统,包含距离度量计算、回归模型预测和神经网络模型预测模块[28]

综上所述,本研究利用文本建模和异常检测识别深度学习应用技术的潜在技术机会,在一定程度上为企业和研发机构提供了高效的技术创新参考方向,研究结果反映了该方法的有效性。

5 结论与展望

本研究提出一种基于专利文本数据的技术机会识别方法。首先,采用Doc2vec技术对专利摘要文本进行建模,以表示潜在的语义和语序信息;然后,根据专利文本表示向量,采用基于密度的离群值检测算法识别出异常专利;最后,以深度学习领域潜在技术识别为例,构建检索式并收集458条专利文献作为数据集,并在此基础上通过进一步评估,总结出深度学习的潜在技术机会,为企业和组织的相关技术应用和开发提供指导。

本研究存在一些不足之处,如采集的数据局限于专利数据,因此采集到的总体数据集较少,这可能影响研究模型的效果;同时研究模型所含参数较多,因此需要根据不同的参数对结果综合考虑。未来的研究可以结合学术文献、引文网络等多方面信息进一步探索。

参考文献:

[1]黄鲁成,李晓宇,李晋.基于专利的ABOD-RFM技术机会识别方法研究[J].情报理论与实践,2020439):144-149.

[2]卞秀坤,郑素丽,诸葛凯,等.基于ISM模型的企业专利组合核心特征分析[J].科技管理研究,2020403):95-100.

[3]马婷婷,汪雪锋,朱东华,等.基于专利的技术机会分析方法研究[J].科学学研究,2014323):334-342383.

[4]冯仁涛,余翔,金泳锋.基于专利情报的技术机会与区域技术专业化分析[J].情报杂志,2012316):13-18.

[5]费欢,肖甫,李光辉,等.基于多模态数据流的无线传感器网络异常检测方法[J].计算机学报,2017408):1829-1842.

[6]宋海涛,韦大伟,汤光明,等.基于模式挖掘的用户行为异常检测算法[J].小型微型计算机系统,2016372):221-226.

[7]关杏彬.基于离群专利的技术机会分析研究[D].广州:华南理工大学,2018.

[8]陈伟,林超然,孔令凯,等.基于专利文献挖掘的关键共性技术识别研究[J].情报理论与实践,2020432):92-99.

[9]KIM JYOON JPARK Eet al. Patent document clustering with deep embeddings[J].Scientometrics2020123563-577.

[10]王京安,校姜文,牛建,等.基于专利分析的技术发展趋势预测研究:以液晶材料技术为例[J].科技管理研究,2019398):141-149.

[11]徐琴珍,杨绿溪.一种基于有监督局部决策分层支持向量机的异常检测方法[J].电子与信息学报,20103210):2383-2387.

[12]LI W JMENG W ZHAU M H. Enhancing collaborative intrusion detection via disagreement-based semi-supervised learning in IoT environments[J].Journal of Network and Computer Applications20201611-9.

[13]WANG JCHEN Y J. A novelty detection patent mining approach for analyzing technological opportunities[J].Advanced Engineering Informatics2019421-11.

[14]翟东升,郭程,张杰,等.采用异常检测的技术机会识别方法研究[J].数据分析与知识发现,20163210):81-90.

[15]张卫卫,胡亚琦,翟广宇,等.基于LDA模型和Doc2vec的学术摘要聚类方法[J].计算机工程与应用,2020566):180-185.

[16]LE QMIKOLOV T. Distributed representations of sentences and documents[J].Proceedings of Machine Learning Research2014322):1188-1196.

[17]ZHOU H FLIU H JZHANG Y Jet al. An outlier detection algorithm based on an integrated outlier factor[J].Intelligent Data Analysis2019235):975-990.

[18]POUYANFAR SSADIQ SYAN Yet al. A survey on deep learningalgorithmstechniquesand applications[J].ACM Computing Surveys2018515):1-36.

[19]GLIOZZO A MMOLINO P. Methods and system for fastadaptive correction of misspellsUS10579729[P].2020-03-03.

[20]MOSSIN ARAJKOMAR AOREN Eet al. System and method for predicting and summarizing medical events from electronic health recordsUS15/690721[P].2019-01-31.

[21]RABINOVICH AMALISIEWICZ T JDETONE D. Augmented reality display device with deep learning sensorsUS10402649[P].2019-09-03.

[22]MIN RSONG DCOSATTO E. Large margin high-order deep learning with auxiliary tasks for video-based anomaly detectionUS10402653[P].2019-09-03.

[23]JACKSON A G. Systems and methods for identification of objects using audio and sensor dataUS10445597[P].2019-10-15.

[24]HANNUN ACASE CCASPER Jet al. Systems and methods for speech transcriptionUS10540957[P].2020-01-21.

[25]HANG-BONG KHYEON-WOO K. Method of predicting crime occurrence in prediction target region using big dataUS15/682698[P].2018-02-22.

[26]DONG W SGAO PLI Jet al. Method of effective driving behavior extraction using deep learningUS10198693[P].2019-02-05.

[27]LI SKAWALE J. Item recommendations via deep collaborative filteringUS10255628[P].2019-04-09.

[28]DREES K H. Building management system with augmented deep learning using combined regression and artificial neural network modelingUS10935940[P].2021-03-02.

作者简介:杨辰(1989—),男,安徽合肥人,副教授,博士,主要研究方向为科研管理、文本挖掘;王楚涵(1997—),通信作者,男,江苏徐州人,硕士研究生,主要研究方向为专利分析、语义识别;陶琬莹(1997—),女,湖北鄂州人,硕士研究生,主要研究方向为专利分析;耿爽(1990—),女,黑龙江哈尔滨人,助理教授,博士,主要研究方向为管理信息系统、文本挖掘。