close

 

Google的說明中心是這樣形容「索引」的個名詞:「Google 索引是我們資料庫中網站的集合,這些網站會經由搜尋傳回。我們一直以來不斷的在 Google中加入更多的內容,我們的漫遊器會定期檢索網頁以重新建立索引。」沒錯,一套搜尋引擎的運作核心,便是 Index 索引。它可針對指定的資料來源(並且不限定於網站,像是文件、DB資料庫皆可)抽取必要資訊,然後把資料跟搜尋引擎建立起關連性,所以Index索引就像一本書的目錄,或是想像成一家圖書館用於查書的索引查詢區,讓需要查閱資料的人就可以經由目錄索引快速翻閱到所需資訊。由於資料通常很龐大,所以我們稱為「Index索引庫」。  

        資料來源資料結構的差異性(例如DB資料庫是結構性文件是半結構性圖片是非結構性),將會造成搜尋引擎抓取資料會有不同的處理方式,所以一般搜尋引擎會以資料結構區分為不同模組,基本是Web網站模組、Doc文件模組與DB資料庫模組(有些廠商對於資料庫採用XML的方式處理)。透過這三個模組來抓取資料後,搜尋引擎核心便會進行製作Index索引庫的作業 ,並會依照管理者的設定進行權限控管、即時索引等相關處理後,便可提供使用者查詢了。

其中大家最熟悉的,也是程式設計師最常碰到的,應該是Web模組,俗稱的Spider網路蜘蛛。看完Index索引庫的說明後,應該可以瞭解,之後我們要開始測試搜尋引擎時,第一步是什麼了吧,第一步就是「建立索引庫」。

arrow
arrow
    全站熱搜

    guidenet 發表在 痞客邦 留言(0) 人氣()