单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,信息检索,程 波,语言与技术,信息检索 程 波语言与技术,1,第一节,信,息,检,索,语,言,第一节 信,2,一 检索语言的概念与工作过程,检索语言,是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。检索的运算匹配就是通过检索语言的匹配来实现的。检索语言是人与检索系统对话的基础。,当存储信息时,检索系统对文献内容进行分析,概括分析出若干能代表文献内容的词语,并赋予一定的标识,如题名、著者、主题词等,作为存储与检索的依据,然后被纳入到数据库中。,当检索信息时,检索人员首先要对检索课题进行分析,同样形成若干能代表信息需求的词语,然后通过检索系统在数据库中匹配具有同样词语和标识的文献,找到自己所需要的信息。,一 检索语言的概念与工作过程检索语言,是信息存储与检索过程中,3,信息,内容,信息,需求,信息,检索,信息,存储,主题,概念,主题,概念,标,识,标,识,检索系统,检索,结果,检索语言在信息存储与检索中的作用,主,题,分,析,主,题,分,析,标,引,标,引,输,出,信,息,检,索,语,言,信息信息信息信息主题主题标标检索系统检索检索语言在信息存储与,4,检,索,语,言,主题语言,分类语言,按表达信息主题,概念的词语形式,(,人工语言,),叙 词,单元词,标题词,按表达信息外部,特征的词语形式,(,自然语言,),书名、篇名、刊名、关键词,著者名称,号码,(,如报告号、专利号等,),文献类型,检索语言的分类示意图,代码语言,检主题语言分类语言按表达信息主题叙 词单元词标题词按表达信,5,中图法在,中文科技期刊全文数据库,的具体应用,中图法在中文科技期刊全文数据库的具体应用,6,信息检索技术,第二节,信息检索技术第二节,7,一 布尔逻辑检索,布尔逻辑检索即运用布尔逻辑算符对检索词进行逻辑组配,表达两个概念之间的逻辑关系。,A AND B,A OR B,A NOT B,一 布尔逻辑检索布尔逻辑检索即运用布尔逻辑算符对检索词进行逻,8,二 位置算符检索,位置算符检索即运用位置算符表示两个检索词间的位置邻近关系,又叫邻接检索。这种检索技术通常只出现在西文数据库,在全文检索中应用较多。,如果说布尔逻辑算符是表示两个概念之间的逻辑关系的话,位置算符表示的是两个概念在信息中的实际物理位置关系。,二 位置算符检索位置算符检索即运用位置算符表示两个检索词间的,9,信息检索程波语言与技术第一节信息检索语言一课件,10,三 截词检索,(truncation),与词根检索,(stemming),用截词符号“?”“*”或“$”加在检索词的前后或中间,以检索一组概念相关或同一词根的词。这种检索技术可以扩大检索范围,提高查全率,主要用于西文数据库检索。中文数据库通常不使用这种技术。,三 截词检索(truncation)与词根检索(stemmi,11,信息检索程波语言与技术第一节信息检索语言一课件,12,四 字段(field)检索,字段检索即指定检索词出现的字段,被指定的字段也称检索入口、检索点、检索途径。检索时,系统只对指定字段进行匹配运算,提高了效率和查准率。,在网络数据库中,字段名称通常放置在下拉菜单中。,检索字段可以几个字段同时使用,以提高查准率,这种方式通常出现在数据库的复杂检索或高级检索中。,四 字段(field)检索字段检索即指定检索词出现的字段,被,13,信息检索程波语言与技术第一节信息检索语言一课件,14,五 全文检索,全文检索是指直接对原文进行检索,从而更加深入到语言细节中去。它扩展了用户查询的自由度,使用户能对原文的所有内容进行检索,检索更直接、更彻底。,全文检索技术通常用于全文数据库和搜索引擎中,使用全文检索可能会提高查全率,但同样也会有很多不相关的信息出现。因此在标引工作做得比较好的数据库中,这种方法是在进行其它字段的检索后,仍无法得到满意的结果时才会使用。,五 全文检索全文检索是指直接对原文进行检索,从而更加深入到语,15,六 其他检索技术,嵌套技术(优先算符,nesting,):即用括号将优先检索的检索式括起来,系统会首先检索括号中的概念。也有检索系统会使用默认布尔逻辑算符顺序或二次检索方式来提供优先运算方式。,限制检索(,limiting search,):在输入检索式时,使用一些限定来缩小或约束检索结果的方法,也称检索限定。检索系统通常会以菜单的方式将所有可供限定的内容排列出来,供检索用户选择。最常见的检索限定包括出版时间、来源出版物、语种、文献类型、是否是核心期刊,检索结果是否为全文等。,大小写敏感(,case sensitive,):指西文检索系统中对用户检索式包含的大小写的处理方法。不同的系统处理方式不同。例如:检索词为“,Apple”,,有些系统严格地按照用户输入的大小写来处理,则检索结果只是“苹果”计算机、“苹果”牛仔裤或其他苹果品牌,这就是大小写敏感。有些系统的检出结果还会包括苹果等植物名称,就是大小写不敏感。,禁用词表(,stop words,):在西文数据库检索中,系统对信息进行标引时,不能做标引词或检索词的语词,包括介词、冠词、代词、连接词、某些形容词或副词等。这部分词语由于使用频率过高,不能反映信息的实际内容,即使用户输入,系统也不会对其进行检索,又称停用词。如,a an in for the should she well only,等。由禁用词构成的词表成为禁用词表,不同检索系统的禁用词表略有不同,要注意查看。,六 其他检索技术嵌套技术(优先算符nesting):即用括号,16,检索功能,第三节,检索功能第三节,17,一 检索功能,检索功能是指检索系统在检索界面上提供给用户的基本功能。它与系统的检索技术是紧密结合的。比较通用的检索功能有:浏览、索引、简单检索、复杂检索、自然语言检索等。,一 检索功能检索功能是指检索系统在检索界面上提供给用户的基本,18,二 浏览(Browse),浏览是人工检索语言的应用与延伸,即由系统提供一个树状结构的概念等级体系,用户可以沿着这棵树进入不同的分支,到达叶子节点,并在节点看到检索结果列表。,浏览功能最重要的作用就是为用户提供一个知识体系,让用户可以俯瞰全貌,了解某一方面的信息总体情况。,二 浏览(Browse)浏览是人工检索语言的应用与延伸,即由,19,信息检索程波语言与技术第一节信息检索语言一课件,20,三 索引(Index),索引是一个线性的表单,可以将任何一个标引字段中的概念按字母顺序线性排列起来,不分等级。用户通过检索,可以定位在索引中的任意某个位置,并浏览在这个位置附近的所有词语,进而查询所需词语对应的结果列表。,索引的种类很多,如人名索引、出版物索引、地名索引、主题索引、机构索引等。,索引与浏览最大的不同,就在于浏览提供给用户的是一个树状结构的概念体系,而索引是一个简单的线性列表。,但在检索界面上,索引和浏览有时合而为一,统称为浏览,用户在界面上看不到严格区分的索引和浏览功能,只在使用时有所不同。,三 索引(Index)索引是一个线性的表单,可以将任何一个标,21,信息检索程波语言与技术第一节信息检索语言一课件,22,四 简单检索,(simple/easy/quick/basic search),简单检索又称为基本检索、快速检索,即为用户提供一个简单的检索界面,帮助非专业或初入门用户方便地提交检索式。页面上通常只有一个检索框,不提供或提供很少的检索入口,不使用或很少使用组配算符。用户提交检索式后,系统将提问发送到默认的一个或几个标引字段中进行匹配运算。,四 简单检索(simple/easy/quick/basic,23,五 复杂检索,(advanced/guided/expert search),也可以称高级检索、指南检索、专家检索,为专业用户、资深用户提供的比较复杂的检索界面,可以构建比较细致的检索式,帮助用户进行精确检索。,复杂检索包含组配检索,即将两个或两个以上的检索词用不同的组配算符组合起来,如布尔逻辑组配,使检索更为灵活,检索结果更为精确、全面。,五 复杂检索(advanced/guided/expert,24,六 二次检索,refined search,在检索结果内进一步检索,使结果更精炼、准确。,六 二次检索refined search,25,信息检索程波语言与技术第一节信息检索语言一课件,26,信息检索方法,第,四,节,信息检索方法第,27,一 信息检索方法概述,所谓检索方法,就是制定正确、恰当的检索策略,为检索过程进行指导,目的是为了优化检索过程,提高检索效率,全面、准确、快速、低成本地找到所需信息。,检索策略是为实现检索目的而制定的具体检索方案。,对于一个具体的检索过程而言,编制出一个好的检索策略,使其能够确切地反映检索需求,就有可能使检索者以最短的时间和最低的成本获取最满意的检索结果。,一 信息检索方法概述所谓检索方法,就是制定正确、恰当的检索策,28,二 信息检索策略的制定与实施,分析检索需求,选择信息资源,选定检索词,构造检索表达式,确定检索途径,对检索策略进行调整,实施并输出检索结果,二 信息检索策略的制定与实施分析检索需求,29,举例,一个研究生在做论文题:“数字图书馆中的元数据体系与互操作研究”,这是一个计算机科学、信息科学方面的课题,请你帮助他在维普数据库中找到最新的参考文献。,举例一个研究生在做论文题:“数字图书馆中的元数据体系与互操,30,四 应注意的问题,在选择检索系统时,就尽可能以机检为主,但切不可忽视手检,特别是在检索某些特殊的题目时更是如此。,如果对所检题目的有关情况不是很了解,可向有关专业人员或检索人员请教,请他们来帮助确定核心数据库或检索工具书。,在确定关键词时应当尽量核对相应系统或数据库的词库,以免造成误检。,在利用不同的检索系统和数据库时,应注意其各自的特点和局限性,比如收录特点、时间范围、分类特点、检索系统名称及期刊名称的演变情况,对人名及机构名称的特殊处理方法。,四 应注意的问题在选择检索系统时,就尽可能以机检为主,但切不,31,