大数据环境下科技情报研究的新模式

科技情报研究是现代图书情报机构的核心知识服务之一,需要通过对海量信息的检索、采集、处理与解释,分析特定技术领域的发展现状和未来发展方向,为科技政策决策者提供咨询参考。一般科技情报研究包括技术发展趋势分析、新兴技术主题监测、科技竞争力与合作分析、循证型科技战略与政策分析等。

传统的科技情报研究框架包括6个连贯且迭代的阶段:情报分析方案规划、多源异构信息采集、信息分类手工处理、信息定量定性分析、情报产品编制与传播,以及支撑决策的成效评估与反馈。每个阶段的任务主要由科技情报研究人员人工实施,最大的问题是每个阶段需要耗费大量的时间和人力工作,特别是在信息检索采集、信息集成和信息分析阶段。从而导致科技情报研究的效率和时效性受到较大的负面影响。

大数据时代的来临不仅为加速科学进步提供了前所未有的机遇,还使得创建数据驱动型知识发现新模式成为可能。科学研究正在经历数据密集型范式转变。作为支撑科技决策的耳目、尖兵和参谋,大数据时代的科技情报研究需要通过知识分析和知识发现服务提供及时、精准和全面的情报分析。为应对这一挑战,迫切需要发展新的科技情报研究模式加快大数据治理与工作流程,提供高质量的决策咨询服务。

一个集成了一系列合适的分析工具、架构完善的数据治理体系有助于更高效地开展科技情报研究工作。本研究目的即是通过改造传统的科技情报研究框架,增加数据集成管理和分析能力,重新设计数据驱动型科技情报研究新模式。新的模式有望推动实时信息采集与分析,使情报研究人员能够快速获取所需的情报,并通过一系列内嵌的分析方法开展深度情报分析。本文首先剖析传统的人力驱动型科技情报工作流程,分析其存在的问题和局限性,综述海量异构数据集成、数据管理与分析方法和工具的研究进展。基于此,提出新的数据驱动型科技情报研究模式的整体架构。

传统科技情报研究模式分析

人力驱动型模式分析

科技决策本质上是一个信息汇聚的过程。为推动这一过程,国内文献情报机构已开展了一系列探索性工作,根据决策者的需求建立了情报服务模型。传统人力驱动型科技情报研究模式可分为6个连贯且迭代的阶段(图1)。

图1传统人力驱动型科技情报研究模式

1)情报分析方案规划阶段。研究人员基于决策者的需求以确定分析主题、涉及技术领域和预期目标,以问题为导向设计情报分析方案。一般需求是调研一个特定的技术领域,包括国内外战略规划图景,技术发展现状与趋势分析,国家、机构、科学家各层面科研竞争力评估,并基于上述分析结果提出对策建议。

2)多源异构信息采集阶段。根据分析方案,情报研究人员从不同信息源手工检索多种类型信息,包括论文、专利、报告、统计信息等。通过预筛选和信息验证,将相关信息归类为原始资源集,保存在分散的个人文件系统中。

3)信息分类处理阶段。包括数据分类、元数据抽取、数据清洗、数据规范化和数据保存。利用德温特数据分析器(DerwentDataAnalyzer?,DDA)等商业软件和CiteSpace等开源软件处理从论文和专利数据库下载的原始结构化数据。但由于缺少合适的方法和工具,需手工处理如战略政策和报告文件等非结构化数据。

4)信息定量定性分析阶段。这一阶段应用定量分析和定性分析方法来整合数据,发现新的知识。目前定量方法主要限于文献计量方法,通过分析科技文献和专利发现及评估技术发展与演变态势、科研竞争力以及合作网络等。定性方法如专家德尔菲法、文献综述、主题研讨、SWOT分析等多用于分析文本数据。

5)情报产品编制与传播阶段。研究人员将分析结果编辑成文,根据决策者的需求和传播的要求,生成各种类型的情报产品,包括快报、汇编、决策参考简报、分析报告、展示幻灯片、期刊论文、评论等。

6)支撑决策的成效评估与反馈阶段。情报分析产品完成后,情报研究人员首先进行自评估,并征求领域专家或用户方的反馈。高质量的研究成果被决策者采用并付诸实践或作为进一步决策的支撑,而质量不高的成果基于反馈结果重复上述阶段修正。有时决策者会根据实践中的变化或新出现的形势在已有情报成果基础上提出新的情报需求,使得研究人员完成各阶段的迭代更新。

存在问题与局限性

在大数据时代,决策层对多源异构数据实时分析和深度挖掘的需求日益强烈。数据的体量和类型已经远远超出手工分析的能力。由于情报任务通常有固定的完成期限,需要有良好组织的知识管理能力和合适的分析方法能够在有限的时间产出高质量的情报研究成果,从而支撑高效科学的决策。显然,目前的人力驱动型科技情报研究模式存在诸多问题和局限性,无法适应不断变化的科研和决策环境要求,主要存在以下4个方面的问题。

1)过程耗时。多个阶段需要大量的时间和人力工作,特别是在信息检索采集、信息集成处理和信息分析阶段。这些任务还严重依赖于手工收集、处理、集成和解读大量的信息。

2)知识发现能力有限。由于在情报任务中采集和储存的多数数据是多属性和非结构化格式的文本信息,情报研究人员能够有效分析的数据只占较小比例。

3)数据管理与共享问题。战略政策和报告数据集通常储存在分散的个人文件系统中,没有合适的基础设施来共享和集成相关数据,因而不能有效地管理和利用。

4)方法学问题。大部分的情报成果是描述性、小规模的分析,缺乏理论框架和量化内容分析的方法学和研究模型。

目前的情报研究模式还属于描述型信息分析,注重通过挖掘历史数据来理解以往的经验和实践成效,研究其背后的影响因素。尽管这一分析模式对于决策而言仍有一定的价值,但由于其受限于手工数据采集和分析能力而缺乏前瞻性,另一方面越来越多的决策需求需要通过集成和分析海量的多源异构数据以获得预见性判断来满足,因此发展基于大数据的预测型分析模式乃至解决方案型分析模式,从而能够利用有限的资源做出更好的决策和行动建议。将是未来科技情报研究的大势所趋。

大数据分析机遇

目前的科技情报研究工作模式可以通过集成大数据方法和技术加以改进。大数据的“4V”特征,即海量的数据规模(volume)、快速的数据流转和动态的数据体系(velocity)、模态繁多的数据类型(variety)和巨大的数据价值(value),对数据管理和分析提出了新的挑战。大数据已经引起了产业界、学术界、政府机构等各创新单元的高度重视,对于其能够产出丰硕的成果给予很高的期望,普遍认为在数据获取、分享、集成、分析及建立数据预测模型等方面的能力提升能够推动各个学科新的知识发现不断涌现。大数据范式有潜力将不完美的、复杂的以及通常是非结构化的数据转换为切实可行的情报,并且为提升科学研究、商业活动、健康医疗、公共管理以及国家安全等关键领域的战略决策能力创造了经济可行的机遇。

情报研究人员越来越需要将不同来源、不同类型的数据集成到数据分析过程中,而主要限制因素不仅是需要分析的数据规模,更主要的是异构数据的多样性。为解决这些挑战,学术界和产业界提出了多种大数据集成和分析方法与工具。

数据集成

集成多样化的数据和方法使我们能够发展预测性分析的能力以发现新的知识。由于传统的数据集成方法在大数据环境下效率低下,探索如何开发新的数据关联和集成方法来最大程度地提高大数据的价值成为一个热门的研究课题,特别是数据的深度集成仍是一个难题。除了已有多个昂贵的数据集成商业化平台外,近年来产业界和学术界还开发了一系列用户友好、功能丰富的数据集成开源工具。其中有许多工具,如Kettle和TalendOpenStudio,具有直观的图形化用户界面和易于使用的拖放功能,能够兼容多个运行平台/操作系统,并且能够进行自定义的部署配置。这些高效低成本的解决方案能够探索用于开发多样化的大数据应用。

斯坦福大学InfoLab实验室开发了一个开源的知识抽取系统DeepDive,能够从非结构化信息(如文本)创建结构化数据,并将这类数据集成到现有的结构化数据库。DeepDive充分利用统计推断和机器学习的效率和有效性用于复杂的抽取任务,已在药物基因组学、古生物学、反人口贩卖执法等一系列领域获得了应用。

还有相当多的研究人员在这一领域开展了大量工作。美国亚利桑那大学开发了用于情报与安全信息学的数据基础设施,主要







































北京中科白殿疯医院
最顶尖白癜风专家之一



转载请注明:http://www.beicanshijie.com/sxjq/12843.html