今天是:
设为首页
收藏本站
官方微博
    首  页  |  EI检索会议  |  ISTP检索会议  |  EI论文资讯  |  ISTP论文资讯  |  教育期刊★入知网  南大★北大中文核心   权威信誉  |  在线投稿
 
网站导航
 
联系我们  
 
782886207
   编辑手机:13574300850      
编辑座机:0743-2185340   
投稿信箱:tougao01@istp88.com
              联系人:邓编辑
您当前位置:首页 >ISTP论文资讯>内容
 
 
ISTP检索技术分析
 
文章来源:邓编辑 时间:2015-08-31

         搜索位于ISTP信息ISTP检索系统层次分类的底层,以ISTP信息为处理对象,向元搜索和信息ISTP检索agent提供很有价值的服务.此外,搜索的工作机制对于元搜索和信息ISTP检索agent的研究与开发也有很好的借鉴作用.下面我们对搜索的一般工作机制以及ISTP信息ISTP检索的一些关键新技术,包括:基于超链的相关度排序、ISTP检索结果聚类、基于概念的ISTP检索、相关度反馈等进行分析。

        搜索的工作机制

        ISTP上的搜索已经发展到数百个.虽然各个搜索的具体实现不尽相同,但一般包含5个基本部分:Robot、分析器、索引器、ISTP检索器和用户接口。

        (1)Robot(也称为spider,crawler或wander):采用广度优先(或者深度优先)的策略对ISTP进行遍历并下载文档.系统中维护一个超链队列(或者堆栈),其中包含一些起始URL.Robot从这些URL出发,下载相应的页面,并从中抽取出新的超链加入到队列(或者堆栈)中.上述过程不断重复直到队列(或者堆栈)为空.为了提高效率,搜索中可能会有多个Robot进程同时遍历不同的Web子空间.目前,大多数的Robot并不能够访问基于框架的Web页面、需要访问权限的Web页面以及动态生成的ISTP页面(本身并不存在于ISTP服务器上,而是由服务器根据用户提交的HTML表单生成的页面)。

        (2)分析器:对Robot下载的文档进行分析以用于索引.文档分析技术一般包括:分词、过滤和转换等.这些技术往往与具体的语言以及系统的索引模型密切相关.在分词时,大部分系统从全文中抽取词条,而有些系统仅从文档的某些部分(例如title,header等)中抽取.词条的类型也有多种,包括:字、词或者短语等.分词后通常要使用禁用词表(stoplist)来去除出现频率很高的词条,有一些系统还对词条进行单/复数转换、词缀去除(stemming)、同义词转换(conflation)等工作。

        (3)用户接口:为用户提供可视化的查询输入和结果输出界面.在查询输入界面中,用户按照搜索的查询语法指定待ISTP检索词条及各种简单/高级ISTP检索条件.在输出界面中,搜索将ISTP检索结果展现为190计算机研究与发展2001年一个线性的文档列表,其中包含了文档的标题、摘要和超链等信息.由于ISTP检索结果中相关文档和不相关文档相互混杂,用户需要逐个浏览以找出所需文档.ISTP信息是动态变化的,旧的页面不断被更新(包括内容改变、位置移动等)和删除,新的页面不断出现.因此Robot、分析器和索引器模块每隔一段时间要重复运行以更新索引数据库. 搜索的索引更新周期通常约为几个月,索引数据库越大,更新也越困难。

                                                               
                                                                                            联系我们:782886207  电话:13574300850  投稿信箱:tougao01@istp88.com

                                                                                       会议网址:http://www.eigood.com

国际会议录索引中心 版权所有 出版支持单位:湖南文化传媒
地址:湖南省吉首市人民南路23号二号楼101室(吉首大学旁侧),邮编416007 网站:www.eigood.com Welcome you soon!
Copyright © 2003-2013 www.eigood.com All right reserved Optimized for 1024x768 to Firefox, MS-IE6 IE7.