摘要:基于论文和专利的聚类分析,上海在智能医疗、智慧装备、智能检测等应用领域拥有比较优势,因此要扬长板,大力鼓励企业开展底层技术攻关和行业应用探索,推动形成有具有世界影响力和竞争力的产品。同时,也要看到差距,积极补短板,通过大学科技园、高质量孵化器等载体建设,技术经纪人等专业团队培育,持续探索形成人工智能技术与产业应用的融合点,形成特色应用优势,加快科研成果转化。
关键词:人工智能,主题聚类,论文数据,专利数据
本项研究得到上海市“科技创新行动计划”软科学研究项目“上海打造科技人才国际竞争比较优势的策略研究——基于三大重点领域国家战略人才力量对比分析”(22692102200)的资助。
一、研究综述
国外学者针对人工智能发展的研究,主要着眼于应用方向及与之配套的制度发展。Özdemir Vural等从工业化5.0的角度,认为人工智能发展战略应重视大数据、物联网方面的应用。Rahmanifard H.等强调人工智能方法在优化工业决策方面的作用,为各种目标函数提供解决方案。Siegismund D. 等关注人工智能在生命科学领域尤其是制药研究方面的实用标准,并提出一套服务于此的底层框架。Scherer M U.讨论了与人工智能相关的公共制度风险,并提出一种基于差异侵权责任的间接形式的人工智能监管建议。Jacobsson S.等提出在人工智能发展中,基于技术的特定政策是十分必要的,可应用于环境创新中。
国内学者对人工智能领域的研究主要聚焦在发展战略、产业政策、技术发展和分析方法4个方面。
在发展战略上,张鑫等认为我国的人工智能存在基础研究投入不足、产业应用根基薄弱等短板,提出完善体制、补齐短板和改进规制等方面的建议。任保平等认为,国家需要构建人工智能与实体经济融合发展的支持体系。邓子云等提出区域人工智能产业发展战略,应由发展定位、发展目标、发展方向、规划计划和扶持政策等构成。陈军等基于中美两国的人工智能专利数据,从总体发展情况、技术方向和创新主体3个方面对人工智能产业发展提出建议。
在产业政策上,吕文晶等构建基于政策工具和创新过程的二维分析框架。李良成等构建政策目标、政策工具、产业链3个维度的政策分析框架,分析中国地区近30项人工智能产业政策。两个团队均指出应增加需求侧政策工具。汤志伟等从政策目标、政策工具和政策执行3个维度,选择17个政策变量,运用二元logistic回归方法比较中美两国人工智能产业政策的差异。
在技术发展上,张振刚等运用专利计量法绘制人工智能共词图谱,以此识别关键技术、热点领域和前沿领域。王友发等利用专利地图,分析该领域热点技术和新兴技术。Hidemichi Fujii等分析该领域专利申请优先级变化趋势,绘制重点技术变迁路线。王雅薇等基于专利分析方法和技术轨迹理论,从人工智能核心技术、专利引用网络和商业化3个维度,对国内人工智能技术创新路径进行识别和对比分析。赵蓉英等基于核心专利,分析了技术扩散、技术延伸以及技术发展阶段并提出专利布局建议。Chun-Yao Tseng等根据人工智能4个子领域的专利引用流向,研究不同国家的技术地位。吕一博等通过专利申请量、技术距离和技术融合度来判断人工智能与物联网技术的融合情况,探索交叉应用研究现状和未来发展动向。
在分析方法上,吴瑞鹏等采用扩展的LDA主题模型(DTM),挖掘美国人工智能战略报告的阶段战略重心及主题演化趋势,并发现其战略发展渐由经济利益和基础布局转向维护国家安全。阮光册等利用Sentence-BERT模型进行专利技术主题聚类,最终通过主题一致性指标,说明其相较LDA主题模型、k-means聚类、doc2vec,能够挖掘出更有颗粒度、更高质量、更深层次的主题。
综上所述,过往研究中学者们对人工智能领域的产业政策和专利文本均进行了不同程度的研究,但鲜少结合论文成果和专利成果进行综合研究,以及开展各国城市对比研究。因此,本文将采用主题聚类方法,对全球各主要城市人工智能领域的论文和专利进行主题提取,挖掘上海在人工智能领域的发展优势和技术重点,从而提出强长板、补短板的发展建议。
二、数据来源
本文论文数据来自Scopus数据库,专利数据来自德温特专利数据库。论文领域分类参考Scopus数据库的二级学科——人工智能。德温特数据库中没有现成的人工智能分类,在进行文献学习和不断调整预检索结果后,选择IPC分类号与关键词相结合的方式进行检索。检索时间跨度为2018—2022年。
在国际城市对比选择上,根据AMiner联合智谱研究发布的全球人工智能最具创新力城市榜单(表1),选择排名靠前的北京、纽约、伦敦、东京、首尔5个城市与上海进行对比研究,分析上海在人工智能领域的相对比较优势。

三、基于论文的人工智能领域国内外比较分析
(一)论文描述性统计
分析2018—2022年各城市人工智能领域论文数量及质量指标可见,在论文产出体量上,上海和北京在人工智能领域的学术论文成果数量较多,居各城市前列。在论文产出质量上,虽然上海在平均被引次数①和FWCI②两项指标上高于北京,但相较纽约、伦敦等城市仍有一定的差距(表2)。

从国际合作和产学研合作角度分析(表3),上海和北京的国际合作发文占比较低,伦敦在国际合作论文占比及其FWCI上表现得最为出色。在产学研合作发文上,尽管上海在校企合作发文的质量方面排第2位,但该类发文占比仅为5.4%,在6个城市中排名最末,与排名第1位的纽约(占比21.6%)仍有较大差距。在庞大的论文产出体量背后,上海产学研应用成果产出有待加强。

(二)论文主题聚类分析
采用Scival工具(Scopus数据库的可视化工具)对2018—2022年6个城市人工智能领域的论文数据进行主题聚类。从整体看,6个城市的人工智能论文主题分布形态大致相同,但在局部主题上各有特色。纽约在人工智能与社会学和医学结合研究方向上有相对优势,主题主要涉及利用人工智能技术治疗监测心理疾病和医学疾病。北京在人工智能与环境科学结合方向上有相对优势,主题主要涉及利用人工智能技术解决动植物和地理环境方面的问题。伦敦在人工智能与艺术结合研究方向上有相对优势,主题主要涉及动画创作方面。首尔与上海发展情况相似,两者在主题丰富度上优势均不足,仍聚焦在计算机、数学、物理、化学等传统学科的交叉结合方面,与其他学科交叉程度不深,缺乏自身特色。
本文对各城市论文数排前10位的主题内容进行具体分析,每个主题运用3个关键词进行定义(表4)。根据二次聚类主题结果,目标检测和命名实体识别几乎在所有城市中都排名前两位,说明图像和文字是如今人工智能应用的主流(表5)。



上海在“照相机;三维定位与地图构建;姿态估计”(Camera;Ostdeutscher Rundfunk Brandenburg;Pose Estimation)这个主题下的研究热度较高。该主题属于计算机视觉与算法研究方向,主要研究同步定位与地图创建(SLAM)算法,目前主要将其用于地面机器人、室内自动停车等视觉应用领域。上海交通大学是该领域的主要研究机构,参与超过1/3的研究项目。该主题下前5位强相关的主题词包括:同步定位与地图创建(Simultaneous Localization and Mapping)、里程计(Odometry)、视觉测程法(Visual Odometry)、照相机(Camera)、激光雷达(Lidar)。从近5年上海发文数量变化趋势可见,该研究领域论文数量呈持续上升趋势(图1)。不过需要指出的是,上海在该领域发表论文的FWCI值仍较低,需进一步提升论文质量和国际影响力。

“无人水面艇;控制器;水下自主航行器”(Unmanned Surface Vehicles;Controller;Autonomous Underwater Vehicle)这一主题主要研究水下航行器,在上海人工智能研究主题排名中列第7位,研究热度相对较高,但在其他城市排前10位的主题中并没有出现。该主题下前5位强相关的主题词包括:无人水面艇(Unmanned Surface Vehicles)、水下自主航行器(Autonomous Underwater Vehicle)、轨迹跟踪(Trajectory Tracking)、路径跟随(Path Following)、跟踪控制(Tracking Control)。图2是2018—2022年该主题论文数量变化情况,研究机构主要是上海交通大学和上海海事大学两所高校。

“批处理;故障检测;典型变量分析”(Bathch Process;Fault Detection;Canonical Variate Analysis)是有关故障检测方向的研究主题,在上海人工智能研究主题排名中列第8位。细分研究方向是工业领域的过程监控、批处理。该主题也未进入其他城市人工智能研究主题前10位。该主题下前5位强相关的主题词包括:过程监控(Process Monitoring)、故障检测(Fault Detection)、故障诊断(Fault Diagnosis)、批处理(Batch Process)、工业过程(Industrial Process)。近5年,上海在该领域发表论文数量变化不大,主要研究机构为华东理工大学。
四、基于专利的人工智能领域国内外城市比较分析
(一)专利描述性统计
分析2018—2022年各城市人工智能领域专利产出体量和质量可以发现,在专利产出体量上,上海虽排第2位,但与排名第1位的北京差距较大;在专利产出质量上,上海平均专利被引证次数、③平均引证次数④和平均IPC分类号数量⑤3个指标,相较4个国外城市仍有不同程度的差距(表6),这说明上海亟须将应用产出的规模优势转化为高质量发展优势,应用产出成果的评价导向亟待转变。

(二)专利主题聚类分析
在技术方法上,本文采用BERT主题建模算法对专利文本进行主题提取,利用BERT词向量、Transformer和C-TF-IDF等技术创建主题集群。其中,词向量为词语的分布式表示,包含语义信息,即语义上相近或相似的词,同时在向量空间上的距离也更接近。相较传统的LDA主题模型,采用该技术方法能清晰地解释主题,同时保留主题描述中的重要主题词。这既解决了概率生成主题建模的问题,在内容层面的主题提取效果上也显著优于LDA主题模型。分析的基本原理和步骤是利用BERT主题模型计算每个经过清洗的文本数据的文档向量,然后使用UMAP方法降低嵌入的维度,最后通过自定义类的TF-IDF变体归集每个聚类簇的主题词。在总结主题内容关键词集群时,优先选择主题下相关程度最高、主题间区别较大、C-TF-IDF值排前3位的词汇,并选取各主题下2%的专利文本进行人工阅读,验证主题总结的准确性。
1.上海情况
经过主题聚类,上海人工智能领域共得到14个主题内容(表7)。可以发现,相较其他城市,上海对“目标检测”这项人工智能技术应用较广泛,其应用场景包括故障检测、智能车辆、智能医疗等,覆盖范围包括图像和视频。图3展示了上海热度变化较明显的3个人工智能领域专利主题:近5年主题3(图像目标检测)的研究热度呈上升趋势;主题4(故障检测)的研究热度总体也呈上升趋势,主要利用人工智能的方法进行能源动力、环境检测等方向系统的检测;近5年(尤其是近3年)主题9(语音识别)的研究热度下降较多,且其主题强度也不够高。


2.城市对比分析
利用BERT主题模型对其他城市进行主题聚类,由于纽约和伦敦的专利数量较少,本文主要对北京、东京和首尔的专利主题进行聚类分析,并与上海进行对比。
对比上海和北京的人工智能领域主题,整体看差异度不大(表8)。图像识别、机器学习和车辆驾驶都是两个城市的重点应用方向,但在应用热度上略有区别,北京排第4位的专利主题为语音识别,而该主题在上海排名第10位。北京拥有百度、中国银行、中国工商银行等众多语音识别应用场景丰富的企业,具备助推语音识别技术发展的重要基础。与北京相比,上海应用热度略高的主题是医学信息图像、医疗诊断等与生物医学融合发展的领域,故障检测主题也较为热门。

东京人工智能领域专利主题见表9。上海在自动驾驶、故障检测及医学图像与诊断等主题上应用热度更强;东京在机器学习、图像识别领域的研究较多。具体来看,东京在智能制造主题下主要运用人工智能的方法提供不同的技术解决方案,用于改进现有技术或解决特定问题,主要涉及机器学习、打印技术、半导体设备、光电转换设备等方面。视频游戏主题主要介绍与游戏相关的人工智能技术和方法,包括游戏玩法辅助、游戏观众体验优化、游戏数据分析和推荐系统等方面,其绝大部分专利由索尼互动娱乐公司申请注册。

首尔在人工智能领域的专利主题分布与上海相比差别较大,在增强现实技术、无线通信网络和智能洗衣机等主题上应用热度更强,而缺少图像目标检测、故障检测、自然语言处理和医学图像及诊断等专利主题(表10)。首尔是全球第一个进入元宇宙的城市,2021年底发布《元宇宙首尔基本计划2022-2026》,增强现实技术成为其热点专利主题,体现了首尔在元宇宙方向的应用优势。

五、结论与建议
通过研究2018—2022年人工智能领域的论文和专利成果主题,发现6个城市具有一定的相似性,也各具发展特点。在论文研究主题上,各城市都关注计算机视觉和命名实体识别方面的人工智能应用,上海在水下自主航行器和故障检测方面的研究较有优势;北京关注人机交互;纽约重点研究迁移学习和医学;伦敦在情感识别和艺术方面与人工智能技术结合较深;东京有较为突出的机器人产业;首尔在脑机接口方面具备研究特色。在专利应用主题上,上海在智能医疗和故障检测等研究方向上拥有研究优势;北京在语音识别方面具备先发优势;东京的特色在于以索尼公司为主导的人工智能与电子游戏的融合;首尔发力元宇宙背景下的增强现实技术。相较国外城市,上海在人工智能领域的论文和专利数量方面具有巨大优势;但在成果质量和影响力方面,与国外城市相比仍有较大差距,同时产学研合作不够深入。为助力上海在人工智能领域形成特色优势、高质量平稳发展,本文提出以下3条建议。
一是注重从量的积累到质的跃升转变。多年来,国家提倡不得直接将论文或专利申请数量等作为享受奖励或资质资格评定政策的主要条件,但是部分企业资质荣誉申请、大型计划项目结题等仍将成果数量作为主要的评价指标。因此,若要从论文、专利数量取胜转变为质量提升,需要政策制定部门、评审主体、监管评估部门等多方协同,转变思想,创新评价方式方法,重视论文和专利成果的独创性和实用性,共同打造高质量发展生态。
二是大力推动交叉学科创新研究。在论文主题聚类上,纽约将人工智能与社会学相结合,北京将人工智能与环境科学相融合,伦敦将人工智能与艺术相协同。相较之下,上海学科交叉创新不足,缺少跨学科特色研究方向和具有国际影响力的研究成果。当前,人工智能技术正以前所未有的速度改变行业发展方向、影响人们的生活,上海要下决心从人才培养、政策制定、环境打造等方面,全力推动人工智能与各学科的交叉研究。
三是扬长板、补短板,创新特色应用。在专利主题聚类上,东京依托索尼公司大力发展人工智能与电子游戏的融合,首尔重点布局元宇宙背景下的增强现实技术,上海在智能医疗和故障检测等应用方向上拥有比较优势。生物医药是上海三大先导产业之一,上海在人工智能医疗技术应用领域拥有比较优势,因此要扬长板,大力鼓励企业开展智能医疗应用,打造一流医疗企业,推动形成具有世界影响力和竞争力的产品。同时,也要看到差距,积极补短板,通过建设大学科技园、高质量孵化器等载体,培育技术经纪人等专业团队,持续探索形成人工智能技术与产业应用的融合点,形成特色应用优势,加快科研成果转化。
注释:
①平均被引次数等于文章被引用的次数/总文章数,是反映文章质量的1个重要指标。
②FWCI是论文的被引用次数与同类型论文的平均被引用次数之比,如果FWCI>1,说明在该领域本论文质量达到并超过世界平均水平。
③被引证次数反映专利被后续其他专利借鉴引用的次数,该数据很大程度上反映专利的质量。
④引证次数表示专利参考引用其他专利的次数。引证次数越多,理论上说明该专利借鉴和参考的专利越多,其技术支撑更全面、质量越高。
⑤IPC分类号数量是指一个专利拥有的不同的IPC分类号数量。数量越多,说明该专利的复杂程度越高、多样性越强、涉及领域越广泛,被实际应用的概率也就越高。
参考文献:
[1]Özdemir V. , Hekim N. Birth of industry 5.0: Making sense of big data with artificial intelligence, “the internet of things” and next generation technology policy[J]. OMICS: A Journal of Integrative Biology, 2018, 22(1): 65-76.
[2]Rahmanifard H. , Plaksina T. Application of artificial intelligence techniques in the petroleum industry: A review[J/OL]. https://link.springer.com/article/10.1007/s10462-018-9612-8.
[3]Siegismund D. , Tolkachev V. , Heyse S, et al. Developingdeep learning applications for life science and pharma industry[J]. Drug Research, 2018, 68(6): 305-310.
[4]Scherer M. U. Regulating artificial intelligence systems: Risks, challenges, competencies, and strategies[J]. Harvard Journal of Law & Technology, 2016, 29(2): 48.
[5]Jacobsson S. , Bergek A Innovation system analyses and sustainability transitions: Contributions and suggestions for research[J]. Environmental Innovation & Societal Transitions, 2011, 1(1): 41-57.
[6]张鑫,王明辉.中国人工智能发展态势及其促进策略[J].改革,2019(9):31-44.
[7]任保平,宋文月.新一代人工智能和实体经济深度融合促进高质量发展的效应与路径[J].西北大学学报(哲学社会科学版),2019,49(5):6-13.
[8]邓子云,何庭钦.区域人工智能产业发展战略研究[J].科技管理研究,2019,39(7):32-43.
[9]陈军,张韵君,王健.基于专利分析的中美人工智能产业发展比较研究[J].情报杂志,2019,38(1):41-47.
[10]吕文晶,陈劲,刘进.政策工具视角的中国人工智能产业政策量化分析[J].科学学研究,2019,37(10):1765-1774.
[11]李良成,李莲玉.目标—工具—产业链三维框架下人工智能政策研究[J].自然辩证法研究,2019,35(10):112-118.
[12]汤志伟,雷鸿竹,周维.中美人工智能产业政策的比较研究——基于目标、工具与执行的内容分析[J].情报杂志,2019,38(10):73-80.
[13]张振刚,黄洁明,陈一华.基于专利计量的人工智能技术前沿识别及趋势分析[J].科技管理研究,2018,38(5):36-42.
[14]王友发,罗建强,周献中.基于专利地图的人工智能研究总体格局、技术热点与未来趋势[J].中国科技论坛,2019(10):80-89.
[15]Fujii H. , Managi S. Trends and priority shifts in artificial intelligence technology invention: A global patent analysis[J]. Economic Analysis and Policy, 2018 (58): 60-69.
[16]王雅薇,周源,陈璐怡.我国人工智能产业技术创新路径识别及分析——基于专利分析法[J].科技管理研究,2019,39(10):210-216.
[17]赵蓉英,李新来,李丹阳.专利引证视角下的核心专利研究——以人工智能领域为例[J].情报理论与实践,2019,42(3):78-84.
[18]Tseng C. , Ting P. Patent analysis for technology development of artificial intelligence: A country-level comparative study[J]. Innovation, 2013, 15(4): 463-475.
[19]吕一博,韦明,林歌歌.基于专利计量的技术融合研究:判定、现状与趋势——以物联网与人工智能领域为例[J].科学学与科学技术管理,2019,40(4):16-31.
[20]陈琦,张君冬,郑婉婷,等.基于LDA模型的中医药人工智能领域主题演化分析[J].世界科学技术-中医药现代化,2022,24(9):3315-3324.
[21]吴瑞鹏,李勇男,刘帅,等.基于DTM的美国人工智能战略热点主题及演化分析[J].情报杂志,2023,42(12):134-143.
[22]阮光册,周萌葳.基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例[J/OL].情报杂志,http://kns.cnki.net/kcms/detail/61.1167.g3.20230920.1627.005.html.
作者简介:王茜(通讯作者),上海市研发公共服务平台管理中心副研究员;樊宇航,上海市研发公共服务平台管理中心助理研究员。