系统架构师 百分网手机站

图书检索系统体系架构研究

时间:2018-03-27 16:16:33 系统架构师 我要投稿

图书检索系统体系架构研究

  图书检索系统可以归纳为索引子系统、检索子系统、资源匹配子系统和资源子系统四大部分,每一个子系统在整个系统中都有着不可忽视的作用,各个子系统之间统筹合作完成图书信息的检索工作。 下面yjbys小编为大家准备了图书检索系统体系架构的文章,欢迎阅读。

图书检索系统体系架构研究

  1 图书信息检索系统评价指标

  信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高。信息检索系统的目标是在较少消耗的情况下尽快、全面返回准确的结果。根据F.W.Lancaster的阐述,判定一个检索系统的优劣,主要从质量、费用和时间三方面来衡量。因此,对计算机信息检索的效果评价也应该从这三个方面进行。本文主要研究信息检索系统的质量标准,质量标准主要通过查全率与查准率进行评价。

  查全率和查准率是判定检索效果的主要标准,而后两者相对来说要次要些。

  查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。

  查全率=[检出相关文献量/文献库内相关文献总量]×100% (1)

  查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。

  查准率=[检出相关文献量/检出文献总量]×100% (2)

  查全率与查准率是评价检索效果的两项重要指标。查全率和查准率与文献的存储与信息检索两个方面是直接相关的,也就是说,与系统的收录范围、索引语言、标引工作和检索工作等有着非常密切的关系。

  影响查全率的因素:从文献存储来看,主要有:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的'重要概念或用词不当等。此外,从情报检索来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟练和缺乏耐心;检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。

  影响查准率的因素:主要有:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误;检索时所用检索词(或检索式)专指度不够,检索面宽于检索要求;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑“或”不当等等。

  2 信息检索系统体系架构

  一个完整的图书信息检索系统应当包括图书信息的预处理,图书信息的入库、用户检索接口、资源匹配、资源排序等部分,本文主要就以下几个部分进行阐述。

  2.1 索引子系统

  索引子系统主要完成的工作是对图书信息的入库工作,图书馆中信息资源具有完整的资源名,然而用户在搜索时是通过输入关键字来发现类似的资源,因此需要对信息资源进行预处理。主要通过对信息资源名构建倒排索引,通过建立关键词和信息资源名之间的邻接矩阵,如此则完成信息资源和关键词之间的关联性,用户可以通过关键词发现自身需要的相关联文档。

  2.2 查询子系统

  查询子系统主要提供给用户查询接口,用户通过输入检索关键词,查询子系统需要对用户的检索关键词进行分析,可能用户输入的关键词并非规范的形式,可能还存在着错误信息,或者是以字母形式输入,或者是以英文或者其它方式输入,查询子系统需要对输入的检索关键词进行消歧工作。

  2.3 资源匹配子系统

  资源匹配子系统主要根据用户的检索关键词在图书馆数据库资源中进行资源匹配,寻找和用户相关联的资源,资源匹配的方式有很多种,诸如采用完全匹配方式(即用户输入的关键词和数据库中资源完成匹配)、部分匹配方式(用户输入的关键词中部分信息和数据库中信息匹配成功)、语义匹配方式(用户输入的关键词与数据库中资源存在语义上的关联性)。

  2.4 资源排序子系统

  资源排序子系统主要根据用户的检索关键词对匹配完成的资源信息进行排序,按照资源的重要性和用户检索的相关联程度进行梯度排序,排序的原则有多种方式,诸如余弦相似度,向量相似度,Jaccard相似度,Dice相似度等多种方式,有些排序子系统根据现今流行的搜索引擎页面排序算法进行改进,并将改进的排序算法移植于图书信息检索系统中。

【图书检索系统体系架构研究】相关文章:

1.j2ee技术体系架构

2.SOA体系架构下的企业系统集成

3.红帽认证体系架构介绍

4.流媒体系统架构的应用

5.RESTful图书管理系统架构设计

6.云计算智能家居系统架构研究

7.MVC架构电子文件管理系统研究

8.光伏储能电站系统拓扑架构研究