,*,出版社,科技文献检索实用教程,单击此处编辑母版文本样,第,4,章 互联网信息资源和搜索引擎的使用,4.1 网络信息资源的类型互联网作为一个规模空前、无与伦比的最大的广域网,虽然其规模和性能已经远远超出通常意义下的计算机网络,但这个超级网络“巨无霸仍然带着计算机网络根本结构的重要特征:同样是由通信子网和资源子网两大局部构成的。其示意图如图4.1所示。网络信息资源Network Information Resources也称虚拟信息资源,是指通过互联网和计算机网络可以利用的各种信息资源的总和。互联网信息资源是以数字化形式记载,以多媒体形式表达,在磁介质、光介质以及各类通信介质上存储,并通过互联网进行传递的信息内容集合。网络信息资源多种多样,可按不同的标准划分为不同的类型。下面主要介绍按信息来源、信息内容划分的类型。,图,4.1,互联网包括通信子网和资源子网,网络信息资源存在于资源子网上,1按信息来源分网络信息资源按信息来源可分为政府信息资源、公共信息资源和商用信息资源等类型。1政府信息资源政府信息资源即各国政府在Internet上发布有关该国与政府的各种公开信息。2公共信息资源公共信息资源即为社会公共效劳的机构所拥有的信息资源。3商用信息资源商用信息资源即商情咨询机构或商业性公司为生产经营者或消费者提供的有偿或无偿的商用信息。,2按信息检索工具类型划分1搜索引擎搜索引擎具有强大的检索功能,能提供布尔逻辑检索、短语或邻近检索、模糊检索、自然语言检索等方式查询信息。2网络资源指南网络资源指南又称目录指南,是按主题的等级排列的主题类目索引,类别目录按一定的主题分类体系组织。排列方法有字顺法、时序法、地序法、主题法等或是各种方法综合使用。3网络数据库和网络全文数据库网络数据库包括综合性和专业性期刊数据库、专利数据库等信息资源。这类信息资源可分为商业性和非商业性的数据库。网络全文数据库更是一类有极大价值的信息源。,4联机馆藏目录系统OPAC公共联机馆藏目录系统OPAC在网络环境下提供图书馆书目数据查询,成为用户在网络上获取图书馆书目信息的重要途径。5学科信息门户网站学科信息门户是将一学科领域内的有关信息资源、研究机构、主要人物、主要会议和参考工具等整合在一起,为该学科内的用户提供高质量的网络信息获取效劳的一个网络入口。6电子出版物电子出版物有电子图书、电子期刊和电子报纸等。7网上参考工具书参考工具书是作为工具使用的一类特殊的图书,它是用特定的编制方法,,将大量分散在原始文献中的知识、理论、数据、图表等,用简明扼要的形式,全面系统地组织起来,供人们迅速查找资料线索和解决疑难问题。Internet上有为数众多的指南、名录、手册、索引等传统的和现代的参考工具书。这些网络版参考工具书使用起来非常方便,用户只需要输入待查的词或词组,就可以找到相关的定义和使用方法。8软件资源Internet上的软件资源十分丰富,大局部可供免费下载使用,还有许多的共享软件。9开放获取资源开放获取不是指一种检索工具,而是比任何检索工具都有力的一种网络信息获取方式。开放获取一般指能够提供科研人员免费或低本钱地获取科研信息的一种出版机制、出版系统平台、经济运行模式或鼓励政策。,10其他动态信息资源各级政府机构、高等院校、团体、公司在网上发布的消息、政策法规、会议消息、研究成果、产品目录、出版目录和广告等。4.2 搜索引擎网络冲浪的驾驶舱面对浩如烟海的网络资源,搜索引擎就好似是航船的驾驶舱,引领着人们在网络中冲浪。搜索引擎是互联网上3大最流行的效劳E-mail、搜索引擎、WWW浏览器之一,使用频率仅次于电子邮件。4.2.1 搜索引擎的类型1按工作方式划分搜索引擎全文、目录索引和元搜索引擎1全文搜索引擎Full Text Search Engine全文搜索引擎是名副其实的搜索引擎,。它们都是通过从互联网上提取的,各个网站的信息以网页文字为主而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此它们是真正意义上的搜索引擎。2目录索引类搜索引擎Search Index/Directory目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。目录索引与全文搜索引擎的区别在它是由人工建立的,通过“人工方式将站点进行了分类,。它的主要优点有:层次、结构清晰,易于查找;多级类目,便于查询到具体明确的主题;在内容提要、分类目录下有简明扼要的内容,可使用户一目了然。其缺点是搜索范围较小、更新速度慢、查询交叉类目时易遗漏。,3元搜索引擎Meta Search Engine元搜索引擎在接受用户查询请求时,同时用其他多个搜索引擎进行搜索,并将结果返回给用户。这是一种调用其他独立搜索引擎源搜索引擎来完成检索功能的搜索引擎。2根据综合或专业用途分为通用搜索引擎和垂直搜索引擎1通用型搜索引擎通用搜索引擎就如同互联网第一次出现的门户网站一样,大量的信息整合导航,极快的查询,将所有网站上的信息整理在一个平台上供全体网民使用,于是信息的价值第一次普遍被众多商家认可,迅速成为互联网中最有价值的领域。2垂直型搜索引擎垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和,延伸,也是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。4.2.2 搜索引擎的原理搜索引擎Search Engine是网络信息检索工具的重要的一类。搜索引擎一般由采集器、索引器、检索器及用户接口组成,如图4.2所示。,图,4.2,搜索引擎的工作原理示意图,搜索引擎的原理,可以看作3步:从互联网上抓取网页建立索引数据库在索引数据库中搜索排序。1从互联网上抓取网页利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其他网页,重复这个过程,并把爬过的所有网页收集回来。2建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超级链接中每一个关键词的相关度或重要性,然后用这些相关信息建立网页索引数据库。,3在索引数据库中搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。4.3大型综合性搜索引擎介绍4.3.1 百度搜索 。百度搜索是全球最大的中文搜索引擎,1999年底成立于美国硅谷,2000年1月该公司移回到北京开展,它的创立者是在美国硅谷有多年成功经验的李彦宏和徐勇。百度一直致力于向人们提供“简单,可依赖的信息获取方式。,百度在向门户网站提供搜索效劳的同时,学习了Google的商业模式,把公司的网站改为搜索网站,同时也迅速添加了类似于Google的网页快照、地图搜索等特色功能。1百度的检索方式百度搜索提供了简单搜索、高级搜索和网页目录等几种方式。2百度的检索特点1百度快照每个被收录的网页,在百度的效劳器上都存有一个纯文本的备份,称为“百度快照。2高级检索高级检索可定义搜索结果中“包含以下全部的关键词相当于and、,图,4.3,百度的简单检索画面,“包含以下完整关键词相当于and且“精确匹配、“包含以下任意一个关键词相当于or、“不包括以下关键词相当于not。与大多数搜索引擎相同,百度搜索提供“分类检索和“关键词查询两种方法。百度同样支持多关键词查询。3精确检索使用双引号和书名号如输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的。给查询词加上双引号就可到达不拆分查询词的目的。3百度的特色产品简介1百度贴吧百度贴吧是世界最大的中文交流平台,这是一个自由网络空间。贴吧的形式类似一些社区网站的BBS,但它的创立比在BBS上发帖、找帖方便得多。,2百度知道百度知道于2005年11月正式发布,是一个基于搜索的互动式知识问答分享平台。百度知道的最大特点,就在于和搜索引擎的完美结合,让用户所拥有的隐性知识转化成显性知识,用户既是百度知道内容的使用者,同时又是百度知道的内容的创造者。通过用户和搜索引擎的相互作用,实现搜索引擎的社区化。3百度百科始于2006年4月的百度百科是一部内容开放、自由的网络百科全书,也是全球最大、最全的简体中文知识性百科全书,涵盖所有领域知识、效劳所有互联网用户。4百度文库百度文库是供网友在线分享文档的开放平台。平台上所累积的文档均来自,热心用户的积极上传。“百度自身不编辑或修改用户上传的文档内容。4.3.2 谷歌搜索 :/。Google是一个功能强大、使用方便的搜索引擎。,图,4.4 Google,简洁的检索,界面谷歌是易用性最强的搜索网站,它提供了简单易用的免费效劳,用户几乎可以在瞬间得到相关的搜索结果。Google与其他搜索引擎最大的不同在于,使用复杂的自动搜索方法,可防止任何人为感情因素。1谷歌概况“googol,是美国数学家Edward Kasner的侄子Mition Sirotta创造的一个词,表示为10100,即1后边带有100个零的数字。Google把这个词的词尾略加调整后作为公司名,暗含征服网上无穷无尽资源的雄心大志。Google已经被公认为是现代规模最大、最受欢送的搜索引擎,它给广阔网民提供了免费的、最便捷的网上信息查询,还向AOL美国在线、CompuServe、Netscape、Yahoo!、中国网易等知名门户网站和搜索引擎提供后台网页查询效劳。,2谷歌的功能和特点1界面简洁谷歌界面有时甚至让人觉得过于简陋,它既没有分类目录,也没有什么广告、新闻等效劳工程放在主页上拥挤不堪。2PageRank算法Google采用了新一代的网页级别PageRank自动鉴别技术,这种技术是该公司独创的,以一个网站被其他网站链接的频率来评介该网站的检索级别。3技术先进、搜索结果精确、排序公正有别于其他搜索引擎,没人能花钱买到谷歌的一个更高级别的PageRank,保证了排名的客观公正。4搜索快速,谷歌搜索速度的快捷是它的又一大特色,用户所输任何关键字或信息,都能得到快速的响应,其超链分析的算法还会将搜索结果排列出优先次序,从而使重要的结果排列在前,节省了用户的查询时间。3Google的检索方式1简单搜索独特的检索语法Google界面中有“高级搜索“语言工具和“使用偏好这3个链接。Google不支持“词干法和“通配符*检索,要求所输入的关键词完整、准确、一字不差,才能得到最准确的资料。忽略局部词语通常Google忽略 和com等字符,以及数字和单字。Google搜索不区分英文字母大小写所有的字母均当作小写处理。Google对英文单词的拼写有纠错功能。,2高级搜索对于某些专用语的查询,可单击“高级搜索按钮,进入高级检索界面。3其他重要检索功能“网页快照功能Google进行网页遍历的时候,会给网页做一份索引快照Snap Shot,并将其存储到Google的效劳器中。“手气不错功能I,m Feeling Lucky如在输入关键词后选择“手气不错,Google将带你到它所推荐的网页,无须查看其他结果,省时方便。“类似网页查找功能如果单击“类似网页链接,Google会启动“侦察兵寻找相似网页。,网页翻译功能如果用户使用Google搜索外文网站,会惊喜地发现搜索结果页面上多数网站链接后面都出现了“翻译此页链接,目前该网页翻译效劳仅局限于中文用户翻译英文网页。学术搜索Google ScholarGoogle的Google Scholar于2004年11月24日推出,是世界上第一个针对学术期刊、论文、著作、摘要的免费学术搜索引擎。地图搜索Google地图搜索提供超级强大、友善的地图技术以及本地公司、餐饮等资信,包括公司位置、联络资信以及行车路线指示等。4.3.3 雅虎Yahoo!:/中文主页,简称“雅虎中国。,1雅虎简介Yahoo是Internet上最早的搜索引擎之一,Yahoo的超强大数据库涵盖全球120亿个网页其中包括