本书将利用文本挖掘和情报学中的信息分析方法,采用大样本数据集对具有非专利引文关系的科学论文与技术专利文本的知识相关性进行检验。在四轮德尔菲专家调查后归纳总结两类文本具有的知识相关类型,并在此基础上提出能够反映科学研究创新应用潜力的文本知识相关性计算方法与技术,协助企业从事基于科学的技术创新实践,达到提升研发效率的目的。
科技创新是国家济和社会发展的重要支撑,科学发展对技术创新的积极作用得到了各国政府和各领城学者的广泛认可。企业作为国家技术创新体系中活跃和重要的参与主体,是创新驱动发展战略的中坚力量。科学研究中已揭示的科学发展对技术创新的作用以及多元主体从事研发活动所积累的创新成果等,为以企业为代表的技术创新主体开展基于科学的技术创新实践提供了理论指导和知识积累。
作为科学和技术领域间存在关联关系的重要依据,专利文献含的非专利引文为探索二者间复杂的作用关系和互动方式提供了可度量的现实途径。已有的研究多根据技术专利和学术论文中的著录信息在不同
创新主体、创新领城、创新成果之间建立映射,再结合创新扩散、社会
再
网络关系、技术转移等理论探讨科学发展推动技术创新的内在原理与作用机制。虽然非专利引文真正关联的是学术论文和技术专利这两类文本,但其能够作为关联科学和技术领城的依据则是基于这样两个假设:,专利和论文分别是技术创新和科学研究的重要产出;第二,非专利引文关系中的专利与论文之间存在知识上的相关性。
目前,学术界对于个假设的成立已达成共识,在对各个国家和地区授予专利和文数行统计后可以发现,企业和以高校为代表的科研机构分别是专利和论文的申请与发表的主体,因而将专利和论文作为两类创新主体的主要创新产出存在合理性。然而,关于第二个假设的成立仍缺少系统且全面的科学论证,这直接影响了建立在非专利引文基础上的科学和技术关联研究的可靠性。此外,虽然重大技术突破离不开相关领城的科展,但并非所有与施引专利存在知识相关性的学术成果对于技术问题的解决都具有直接推动作用,优秀的科研成果也并是具有可直行技术转化的高应用价值。在企业的技术创新实践中,非专利引文能够为研发活动需要的科学知识提供具体线索,但过分依赖容易造成科学研究和技术创新发展逻辑上的不兼容而导致企业研发战略的制定和资源投入出现偏差,增加项目投资风险、延长了技术研发周期。因此,检验非专利引文关系学和技术文本知识相关性,揭示两类文本的知识相关类型和特点,开发能够从非专利引文中识别具有技术创新应用潜力科学研究的技术方法,对于探索科学与技术间的复杂关系,丰富和完善二者相关性研究的范式与方法,指导企业从事基于科学的技术创新实践等具有重要意义。
本书利用文本挖掘技术和信息分析方法对非专利引文关系中的论文和专利两类科学与技术文本的知识相关行系统研究,主要的研究内容如下:
(1)梳理科学与技术间存在关联关系的理论依据、研究方手段,对基于非专利引文所确立的科学技术相关性研究现行评述并指出不足。
(2)将研究对象限定在论文和专利两类科学和技术文本,并将非专利引文限定在技术专利对科学论文的引用上。以向量空间模型计算两类文本的知识相关性,采用大样本数据集对3D打印技术领城非专利引文关系中的论文和专利的知识相关行检验,对非专利引文能否作为判定两类文本存在知识相关性的依据提供系统而全面的论证。
(3)在四轮德尔菲专家调查法后归结施引专利与被引论文间的知识相关类型,结合创新扩散、基于文献的知识,探讨与专利存在不同相关类型的科学研究成果如何辅助企业的技术创新实践,是如何加快具体技术问题的解决。在此基础上,分析以向量空间模型为基础的相关性计算结果对不同知识相关文本的度量效果,指出将高得分科学研究成果作为实现技术创新重要途径存在的问题与不足。
(4)针对上述传统相关性计算方法中的不足,从信息抽取、知识表示、相关性度量三个方面入手,提出能够从非专利引文中识别具有创新应用潜力的科学研究的方法括用于专利和论文知识内容表示的关键词抽取算法、融合概念间语义信息的文本知识表示方文与专利的知识相关性计算方法。
(5)为了体现本书提出的相关性计算方法的性,以3D打印技术领域的技术专利和科学论文为分析对象,介绍如何将该方法应用于企业的技术创新合作伙伴识别任务当中。揭示将该相关性结果作为合作伙伴评价指标对识别结果的影响,以此证明本书的方法在科学和技术文本知识相关性计算方面的可靠性。
本书的主要研究结论与成果如下:
(1)证明了具有非专利引文关系的技术专利和科学论文之间的确存在知识相关性。
(2)提出了非专利引文关系中专利与论文具有的四种知识相关类别,即知识背景相关、创新依存相关、能相关、主题概念相关。
(3)提出了一种可用于表示专利和论文摘要中重要知识内容的关键词抽取算法,并在开放语料上证明其的性能。
(4)提出了一种用于计算专利和论文文本知识相关性的新方法,可反映文本知识在文本内容、“技能”关联、知识网络距离三个维度上的相关性特征。
(5)以3D打印技术领域企业的技术创新合作伙伴识别任务为例,证明了相关方法在科学和技术文本相关性计算方面的性,说明了本书的方法应用境广泛。
第1章导论/1
1.1研究背景与研究问题/1
1.2研究目标与研究意义/4
1.3研究思路/7
第2章理论基础与研究综述/10
2.1相关概念界定/10
2.2科学与技术关联的理论基础/15
2.3科学与技术的定量关联方法/
2.4基于非专利引文的科学技术关联研究/23
2.5科学论文与技术专利的信息抽取方法/26
第3章非专利引文文本知识相关性的可靠性研究/37
3.1假设的提出/38
3.2数据采集与预处理/38
3.3非专利引文的知识相关性的比较分析/45
3.4基于非专利引文耦合的专利知识相关性检验/
3.5本章小结/67
第4章基于关键词网络的专利与论文知识内容提取/69
4.1摘要文本的预处理与图表示方法/71
4.2基于共现与语义连接的关键词加权方法/85
4.3关键词抽取方法的比较与评估/90
本章小结/95
非专利引文关系文本的知识相关性计算方法/96
5.1问题描述与概念界定/97
5.2异质信息网络生成与元路径设定/105
5.3基于异质信息网络的专利与论文知识相关性计算/109
5.4算法评估与讨论/118
5.5本章小结/130
第6章科学与技术文本知识相关性的应用研究/131
6.1基于技术专利的企业一技术领域关联分析/134
6.2基于科学论文的科研机构一一科学知识关联分析/146
6.33D打印技术企业与科研机构的知识相关性计算/153
3D打印技术企业的科研机构合作伙伴识别/157
6.5本章小结/170
第7章研究结论与展望/172
7.1主要研究结论/172
7.2研究创新点与贡献/174
7.3研究局限与展望/177
参考文献/179
附录/ 195
附录A:科学与技术文本知识相关类型调查问卷/195
附录B:德尔菲专家调查反馈结果/ 196
索引/ 198