请选择 进入手机版 | 继续访问电脑版

中文搜索引擎指南入门方法介绍

[复制链接]
查看60 | 回复0 | 2021-8-29 03:33:12 | 显示全部楼层 |阅读模式
中文搜索引擎指南入门方法介绍

知己知彼——基础知识篇

搜索引擎是一种用于帮助互联网用户查询信息的搜索工具,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。

听起来,好像很复杂啊。

其实,最简单的说法,就是用来在网上找资料的工具。它的出现也蛮富有趣味的呢。

诞生历史

十几年前,万维网还没有出生的时候,网民在很短的时间内就掌握其中的全部信息,搜索引擎完全没有出现的必要。

1993年,互联网上出现了最早的Web浏览器Mosaic,次年Netscape推出了Navigator。浏览器的发展促使Web得到迅速推广,站点数目以惊人的速度增加。于是,搜索引擎就诞生了。

第一个搜索引擎的出生地在美国,它的名字叫Archie,是由McGill大学的一个小组开发的。

随着互联网的信息按几何式增长,搜索引擎开始快速发展。

1994年春天,世界上出现了最早的真正意义上的搜索引擎——Lycos。

随着Yahoo!的出现,搜索引擎的发展也进入了黄金时代,其性能也更加优越。随着搜索引擎家族的不断发展壮大,逐渐分布到信息世界的各个角落,它们的种类、技术也在不断的发生变化。

主要种类

目前有着数量众多的搜索引擎,但按照它们信息搜集方法和服务提供方式的不同,可以大致划分为三大主要类型:基于蜘蛛程序的的机器人搜索引擎、目录式搜索引擎(Directory,也叫做Catalog)和Meta元搜索引擎。

机器人搜索引擎

这种搜索引擎由一个称为蜘蛛(Spider)的机器人程序以某种策略的程序自动访问Web站点,提取站点上的网页,并根据网页中的链接进一步提取其它网页,或转移到其它站点上。由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。

听起来感觉很复杂吧?简单讲,就是由程序自动抓去网上的信息,“搜索引擎”这个词的原义就是指这种狭义上的基于机器人的搜索引擎。

目录式搜索引擎

这种搜索引擎是以人工方式或半自动方式搜集信息,由编辑人员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。目录的用户界面基本上都是分级结构,首页提供了最基本的几个大类的入口,用户可以一级一级地向下访问,直至找到自己感兴趣的类别,另外,用户也可以利用目录提供的搜索功能直接查找关键词。

元搜索引擎

Meta搜索引擎也叫做Multiple Search Engine,它的特点是本身并没有存放网页信息的数据库,当用户查询一个关键词时,它把用户的查询请求转换成其它搜索引擎能够接受的命令格式,并行地访问数个搜索引擎来查询这个关键词,并把这些搜索引擎返回的结果经过处理后再返回给用户。对于返回的结果系统会进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。

在了解了搜索引擎的基础知识之后,我们再来学习一下搜索引擎搜索的基本规则。它们几乎适用于目前大多数主流的搜索引擎,无论它是国内的,还是国外的。就是说,它可是放至四海而皆准的呦。

基本规则

使用具体查询条件

你的查询条件越具体,你就越容易找到你需要的文档。

别怕向搜索引擎提交好象有点复杂的搜索条件。不然的话,它会返给你众多搜索结果,你将又陷入一页页翻找的怪圈。

比如你想找一些有关“Excel数学函数的使用方法”的文章,你可搜索 “Excel数学函数 ”,但不要仅查询“Excel”。试比较在google中两种查询所返回的结果。第一种搜索条件返回了64项搜索结果,而第二种搜索条件返回了3,100,000项搜索结果。差别是不是很悬殊呢。所以,为了搜索结果的准确一定要让查询条件具体一些。

使用基本数学规则

基本的数学规则包括加法、减法和乘法。

加法

有时你需要确认搜索结果中包含所在你查询的词,而不是一部分。这时你可以使用搜索引擎的加法规则。即使用加号+或是空格。

减法

当你需要在查询某个题材时又不希望在这个题材中包含另一个题材,这时你就可以使用减法了,减法使用减号-。

什么什么嘛?这么复杂,讲简单一点啊。

别急,举个例子就明白了。比如你想查询有关“刘德华的歌曲享用你的姓”,但又不希望得到的结果是RM格式(Realplayer)的。你就可以输入“刘德华 歌曲 享用你的姓 –RM”要记住一定要在减号前留一个空格位。就可以了。

减号的作用就在于可以使搜索结果集中反映你的需求,而你无需为大量无关的搜索结果而头疼。

乘法

你已经学会加法与减法,现在可以学乘法了,在搜索引擎中,乘法的公式是:“短语”。使用这一公式可以保证你的搜索结果将非常准确。因为,即使是有分词功能的搜索引擎也不会对引号内的内容进行拆分。在很多搜索引擎中,给这种查询方式起名叫短语查询,或者专用词语查询。这一方法在查找名言警句或专有名词时显得格外有用。

什么分词?

分词简言之,就是把词语进一步划分。比如,将一个长的词组甚至句子分成多个词语。分词技术主要是用在像中文、日文这样的亚洲语言。因为这些语言字与字之间,词与词之间是没有空格的,它在搜索引擎的应用恐怕是最近几年的事情了。

关于基本的搜索规则已经讲完了。在有些搜索引擎中还会支持什么通配符之类的,因为并不普遍,就不多说了。有些集成式的搜索引擎,也叫综合搜索引擎,比如新浪。允许用户在目录中进行关键词的搜索。所以,还有一种缩小搜索范围的办法就是先选择能够确定的目录,然后再用这些规则进行搜索。其实这就是应用搜索的减法规则。

学完了基本的搜索规则,你们想不想知道一些搜索的使用技巧呢?

别卖关子了,这还用问?谁不想搜索的更快更准啊?快说说吧。

省时高效——实用技巧篇

选择合适的搜索工具

工欲善其事,必先利其器。每种搜索引擎都有不同的特点,只有选择合适的搜索工具才能得到最佳的结果。前面我们已经了解了搜索工具基本上可以分为网页检索(也就是上次说的基于蜘蛛程序的机器人检索系统)和分类目录(即目录式搜索引擎)两种(我们先不谈元搜索引擎)。这里先介绍一下这两种工具的区别。

网页检索实际上是网页的完全索引。分类目录则是由人工编辑整理的网站的链接。这两种搜索工具究竟哪种更好用?这取决于你想查询的问题。

因为搜索引擎的特点是量大,分类目录的特点是网站是经过挑选的。一般而言,如果你需要查找非常具体或者特殊的问题,用网页检索比较合适;如果你希望浏览某方面的信息、专题或者查找某个具体的网站,分类目录可能会更合适。

此外,如果你需要查找的是某些确定的信息,比如Mp3、地图等,就最好使用专门的Mp3、地图等搜索引擎。

咦,原来还有这样的搜索引擎?

当然了。实际上几乎每一类信息都有非常专业的搜索工具,我们称为垂直搜索引擎。比如赛迪网的IT罗盘就是以精选式IT垂直搜索为特征的搜索引擎。图形天下Go2map就是专门提供地图搜索服务的地图搜索引擎。

避免使用错误的搜索条件

在搜索时,要避免下面的搜索错误,这样才能返回更为有用的搜索结果。

Stop words

很多搜索引擎都会屏蔽一些关键词。当你在搜索框中输入这些词是,不会返回正确的搜索结果。这些词就被称作“Stop words”。

为什么搜索引擎会屏蔽这些词?

这是因为这些词本身是缺乏实际意义的或者使用过于广泛,大都是副词、连词之类的,一旦用来搜索的话,会返回大量的无用的搜索结果甚至导致搜索引擎错误。

哪些词属于“Stop words”呢?

英语中的300个最常用单词中的绝大部分都属于这类词。

过于通俗简单的词语

大多数搜索引擎在处理太简单通俗的词语方面有问题。这不是因为搜索引擎清高或是自大,而是取决于它的搜索机制——基于关键词检索。由于网上相关信息的数量是巨大的,如果使用过于通俗简单的词语,就会返回过多的搜索结果,因而就很难查到有用的信息。

错别字

目前而言,大多数搜索引擎还不能够进行容错查询。所以,一定要注意关键词的正确写法。

什么是容错查询?

所谓容错查询,就是指即使用户输入了错别字,搜索引擎也能根据某种规则推断出该词的正确写法,给出正确的搜索结果。

正确使用布尔检索

正确的使用布尔检索方式可以减少搜索结果的返回数。

什么是布尔检索?我好像没听说过啊。

布尔检索,就是应用布尔表达式的检索方式,比如“和”(And)、“或”(OR)、“非”(NOT)。其实前面介绍的搜索的数学规则就是这种布尔检索。加号就相当于和,减号就相当于非。而或关系没有介绍,它并不是很常用的检索规则。

由于不同的搜索引擎在布尔检索的具体表达式写法上有区别,使得很多人在使用布尔检索方式时,出现了一些错误,这样就会影响到返回的搜索结果。因此在搜索时一方面要注意不同搜索引擎工具的布尔检索的表达方法。

shell交流群:828250245 免费领取shell
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

97

主题

99

帖子

739

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
739