久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    搜索引擎分類與工作原理

     八里根 2009-08-21
     
     
    搜索引擎分類

    搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Directory )和元搜索引擎(Meta Search Engine)。 ■全文搜索引擎

    全文搜索引擎是名副其實的搜索引擎,國外具代表性的有Google、Yahoo! Search、Bing等,國內的有百度(Baidu)。它們都是通過從搜索引擎的爬蟲(Crawler)從互聯網上提取各個網站的信息(以網頁文字為主),從而建立記錄索引數據庫,當用戶搜索時,搜索引擎檢索與用戶查詢條件匹配的相關記錄,然后以一定的排列順序將結果返回給用戶,因此他們是真正的搜索引擎。

    ■目錄索引

    目錄索引雖然有搜索功能,但在嚴格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網站鏈接列表而已。用戶完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo Directory雅虎目錄。其他著名的還有Open Directory Project(DMOZ)等。國內的許多行業目錄網站也都屬于這一類。

    ■元搜索引擎 (META Search Engine)

    元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,并將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表)。在搜索結果排列方面,有的直接按來源引擎排列搜索結果,如Dogpile,有的則按自定的規則將結果重新排列組合,如Vivisimo

    搜索引擎是怎么工作的

    搜索引擎并不真正搜索互聯網,它搜索的實際上是預先整理好的網頁索引數據庫。真正意義上的搜索引擎,通常指的是收集了因特網上幾千萬到幾十億個網頁并對網頁中的每一個詞(即關鍵詞)進行索引,建立索引數據庫的全文搜索引擎。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來。在經過復雜的算法進行排序后,這些結果將按照與搜索關鍵詞的相關度高低,依次排列呈現給用戶。

    現在的搜索引擎已普遍使用超鏈分析技術,除了分析索引網頁本身的內容,還分析索引所有指向該網頁的鏈接的URL、AnchorText、甚至鏈接周圍的文字。所以,有時候,即使某個網頁A中并沒有某個詞比如“惡魔撒旦”,但如果有別的網頁B用鏈接“惡魔撒旦”指向這個網頁A,那么用戶搜索“惡魔撒旦”時也能找到網頁A。而且,如果有越多網頁(C、D、E、F……)用名為“惡魔撒旦”的鏈接指向這個網頁A,或者給出這個鏈接的源網頁(B、C、D、E、F……)越優秀,那么網頁A在用戶搜索“惡魔撒旦”時也會被認為更相關,排序也會越靠前。

    搜索引擎的原理,可以看做三步:從互聯網上抓取網頁信息→建立索引數據庫→在索引數據庫中搜索排序

    從互聯網上抓取網頁

    利用能夠從互聯網上自動收集網頁的Spider(或Crawler)系統程序,自動訪問互聯網,并沿著任何網頁中的所有URL爬到其它網頁,重復這過程,并把爬過的所有網頁信息收集回來。

    建立索引數據庫

    由分析索引系統程序對收集回來的網頁信息進行分析,提取相關網頁信息(包括網頁所在URL、編碼類型、頁面內容包含的關鍵詞、關鍵詞位置、生成時間、與其它網頁的鏈接關系等),根據一定的相關度算法進行大量復雜計算,得到每一個網頁針對頁面內容中及超鏈中每一個關鍵詞的相關度(或重要性),然后用這些相關信息建立網頁索引數據庫。

    在索引數據庫中搜索排序

    當用戶輸入關鍵詞搜索后,由搜索系統程序從網頁索引數據庫中找到符合該關鍵詞的所有相關網頁。因為所有相關網頁針對該關鍵詞的相關度早已算好,所以只需按照現成的相關度數值排序,相關度越高,排名越靠前。

    最后,由頁面生成系統將搜索結果的鏈接地址和頁面內容摘要等內容組織起來返回給用戶。

    搜索引擎的Spider一般要定期重新訪問所有網頁(各搜索引擎的周期不同,可能是幾天、幾周或幾月,也可能對不同重要性的網頁有不同的更新頻率),更新網頁索引數據庫,以反映出網頁內容的更新情況,增加新的網頁信息,去除死鏈接,并根據網頁內容和鏈接關系的變化重新排序。這樣,網頁的具體內容和變化情況就會反映到用戶查詢的結果中。

    互聯網雖然只有一個,但各搜索引擎的能力和偏好不同,所以抓取的網頁各不相同,排序算法也各不相同。大型搜索引擎的數據庫儲存了互聯網上幾億至幾十億的網頁索引,數據量達到幾千G甚至幾萬G。但即使最大的搜索引擎建立超過二十億網頁的索引數據庫,也只能占到互聯網上普通網頁的不到30%,不同搜索引擎之間的網頁數據重疊率一般在70%以下。我們使用不同搜索引擎的重要原因,就是因為它們能分別搜索到不同的內容。而互聯網上有更大量的內容,是搜索引擎無法抓取索引的,也是我們無法用搜索引擎搜索到的。

    你心里應該有這個概念:搜索引擎只能搜到它網頁索引數據庫里儲存的內容。

      本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 欧美XXXX色视频在线观看| 女人被黑人躁得好爽视频| 久久国产成人亚洲精品影院老金| 55夜色66夜色国产精品视频| 国产首页一区二区不卡| 国产成人欧美日本在线观看| 亚洲欧洲自拍拍偷午夜色无码| 美乳丰满人妻无码视频| 午夜精品久久久久成人| 亚洲欧美偷国产日韩| 日韩精品久久久肉伦网站| 欧美成人一区二区三区不卡| 亚洲欧洲自拍拍偷午夜色无码| 亚洲性日韩精品一区二区三区| 人人妻人人狠人人爽| 亚洲人成中文字幕在线观看| 久草热8精品视频在线观看| 人人爽人人模人人人爽人人爱| 中文字幕国产精品二区| 国产微拍精品一区二区| 亚洲 日本 欧洲 欧美 视频| 日韩AV片无码一区二区不卡电影| 无遮挡拍拍拍免费观看| 欧美午夜片欧美片在线观看| 強壮公弄得我次次高潮A片| 国产激情艳情在线看视频| 国产成人综合欧美精品久久| 中国CHINA体内裑精亚洲日本| 亚洲国产精品尤物YW在线观看| 亚洲中文字幕无码久久精品1| 日韩少妇人妻vs中文字幕| 国产亚洲精品无码不卡| 国产稚嫩高中生呻吟激情在线视频| 国产成人午夜福利在线播放| 人妻在线无码一区二区三区| 99在线精品国自产拍中文字幕| 精品人妻少妇嫩草AV无码专区| 国产色视频网站免费| 人妻精品动漫H无码中字| 在线看片免费人成视频电影| 精品无码一区二区三区电影|