搜尋引擎入門－知諸網 - SEO與網站優化與網路行銷與搜尋引擎專家

一個新生網站不需要事先「提交」到搜尋引擎才能登錄到網際網路上。一個來自於已建立好、其他網站的簡單連結就會讓搜尋引擎拜訪和索引到這個新生網站，並且進一步開始用蜘蛛機器人「爬行」該網站的「網頁內容(點)」、「連結結構(線)」、「網站架構(面)」，而目前若是透過「Flash」或「JavaScript」才能拜訪的連結則不會被蜘蛛機器人探索到。

當搜尋引擎的蜘蛛機器人在爬行和索引一個網站時會依據一些要素，並且該網站的許多網頁可能不會被索引到除非它們的「網頁等級(PR值)」、「連結」、以及「網站流量」提升到一定的程度。舉例來說，從網站的根目錄到該網頁的距離，就是決定該網頁是否會被搜尋引擎檢索的要素之一。

網站管理員可以透過在網域根目錄當中標準的「robots.txt」檔案指示蜘蛛機器人不要索引某些「目錄」或「網頁」。雖然搜索引擎的蜘蛛機器人在拜訪某個網站時會備份和庫存這個網站內部分網頁，並且更新速度沒像網站管理員那麼迅速。網站開發人員可以使用這個方式來杜絕某些網頁，例如：「購物車」、「其它資料庫自動產生頁面」、「個人資料」的內容出現在搜尋引擎的搜尋頁面結果當中，並且防止蜘蛛機器人進入死循環當中。