本书利用文本挖掘技术和信息分析方法对非专利引文关系中的论文和专利两类科学与技术文本的知识相关性进行系统研究,主要的研究内容如下:
(1)梳理科学与技术间存在关联关系的理论依据、研究方法、技术手段,对基于非专利引文所确立的科学技术相关性研究现状进行评述并指出不足。
(2)将研究对象限定在论文和专利两类科学和技术文本,并将非专利引文限定在技术专利对科学论文的引用上。以向量空间模型计算两类文本的知识相关性,采用大样本数据集对3D打印技术领域非专利引文关系中的论文和专利的知识相关性进行检验,对非专利引文能否作为判定两类文本存在知识相关性的依据提供系统而全面的论证。
(3)在四轮德尔菲专家调查法后归纳总结施引专利与被引论文间的知识相关类型,结合创新扩散、基于文献的知识发现理论,探讨与专利存在不同相关类型的科学研究成果如何辅助企业的技术创新实践,特别是如何加快具体技术问题的解决。在此基础上,分析以向量空间模型为基础的相关性计算结果对不同知识相关文本的度量效果,指出将高得分科学研究成果作为实现技术创新重要途径存在的问题与不足。
(4)针对上述传统相关性计算方法中的不足,从信息抽取、知识表示、相关性度量三个方面入手,提出能够从非专利引文中识别具有创新应用潜力的科学研究的方法,包括用于专利和论文知识内容表示的关键词抽取算法、融合概念间语义信息的文本知识表示方法、论文与专利的知识相关性计算方法。
(5)为了体现本书提出的相关性计算方法的优越性,以3D打印技术领域的技术专利和科学论文为分析对象,介绍如何将该方法应用于企业的技术创新合作伙伴识别任务当中。重点揭示将该相关性结果作为合作伙伴评价指标对识别结果的影响,以此证明本书的方法在科学和技术文本知识相关性计算方面的可靠性。
展开