最强文献检索系统问世万方系统升级牛逼

白癜风是怎么引起的 http://news.39.net/bjzkhbzy/180314/6100102.html

又是一年开学季,看着大批莘莘学子步入高校,同时又有大批学生即将面临毕业,这一年要饱受论文的洗礼。在学术论文领域,几乎每一位大学生都避不开论文检索、查重环节。想写出一篇高质量论文,前期大量的信息储备必不可少,而文献检索成为我们获取信息的重要途径。万方数据知识服务平台以客户需求为导向,整合了数亿条全球优质知识资源,依托强大的数据采集能力,应用先进的信息处理技术和检索技术,为决策主体、科研主体、创新主体提供高质量的信息资源产品。今天就来聊聊,我们如何使用百度飞桨PaddleNLP升级论文检索系统。

业务背景

万方论文检索系统的核心问题是文本匹配任务,这个系统需要在数亿条知识资源中,基于检索匹配算法,根据用户的检索词快速地在海量文献中查找相似文献。在系统任务执行过程中,检索词和文献的相关性会直接反映到结果页面的排序上面,而排序准确率直接影响着用户的搜索决策效率和搜索体验。因此,快速且准确地刻画检索词和文档之间的深度语义相关性至关重要。然而,面对海量数据和频繁的用户搜索请求,同时解决高速和高效问题,给万方文献检索系统带来了诸多挑战:难点1—标注数据少:由于人力资源紧张无法对系统中海量的数据资源进行标注,如何利用海量无监督数据,自动生成弱监督数据?难点2—很难精准计算语义相似度:如何准确计算用户检索词和文献之间的相似度?难点3—检索时效性差:面对海量资源和不断增长的用户需求,如何快速、高效得找到相关文献也是一大挑战。除了检索场景外,论文查重、相似论文推荐的核心方法也是文本相似度计算。在这些业务上,我们经历了长期的探索,最终使用飞桨。得益于PaddleNLP丰富的中文预训练模型,面向工业级场景的模型选型与部署能力,使得我们非常高效的搭建了端到端工业级的文本向量学习和计算环境,实现了学术检索系统的多方面升级。

技术选型和项目实践

飞桨在产业实践方面提供了强悍的产品功能和技术支持,我们基于PaddleNLP中丰富前沿的预训练模型、使用PaddleServing实现了服务端的快速部署,解决了实际业务落地中的痛点。我们通过PaddleNLP提供的高质量中文预训练WordEmbedding构造训练数据标签,结合SimCSE以及飞桨深度优化过的文本匹配预训练模型Sentence-BERT,大幅提升了算法精度。在模型性能方面,我们采用了多线程数据预处理、模型降层、TensorRT部署。成熟开发工具的选用,极大地降低了应用深度学习技术进行产业落地的难度。技术方案整体架构图我们的技术方案整体架构图如上所示。概括来说,主要包括三部分:构造数据、模型选择和产业部署。1.构造数据万方业务积累了海量的无监督数据,但是标注数据极少。我们使用PaddleNLP开源的高质量中文预训练词向量,快速构建了弱监督的相似文本匹配数据,节省了大量的人力标注成本。为了数据指标的进一步提升,我们还采用了无监督语义匹配模型SimCSE。此外,万方搜索系统积累了大量用户行为日志数据(如浏览、点击、阅读、下载等),我们也从业务角度筛选出了大量监督数据。SimCSE参考:


转载请注明:http://www.beicanshijie.com/gjbz/18760.html