《SEO教程》2.3 搜索引擎工作原理
閱讀 ?·? 發布日期 2020-05-29 09:32 ?·? admin
搜索引擎的基本工作原理包括如下三個過程:首先在互聯網中發現、搜集網頁信息;同時對信息進行提取和組織建立索引庫;再由檢索器根據用戶輸入的查詢關鍵字,在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并將查詢結果返回給用戶。
工作原理
搜索引擎為了以最快的速度得到搜索結果,它搜索的內容通常是預先整理好的網頁索引數據庫。普通搜索,不能真正理解網頁上的內容,它只能機械地匹配網頁上的文字。真正意義上的搜索引擎,通常指的是收集了互聯網上幾千萬到幾十億個網頁并對網頁中的每一個文字(即關鍵詞)進行索引,建立索引數據庫的全文搜索引擎。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來。在經過復雜的算法進行排序后,這些結果將按照與搜索關鍵詞的相關度高低,依次排列。典型的搜索引擎三大模塊組成:
(一)信息采集模塊
信息采集器是一個可以瀏覽網頁的程序,被形容為“網絡爬蟲”。它首先打開一個網頁,然后把該網頁的鏈接作為瀏覽的起始地址,把被鏈接的網頁獲取過來,抽取網頁中出現的鏈接,并通過一定算法決定下一步要訪問哪些鏈接。同時,信息采集器將已經訪問過的URL存儲到自己的網頁列表并打上已搜索的標記。自動標引程序檢查該網頁并為他創建一條索引記錄,然后將該記錄加入到整個查詢表中。信息收集器再以該網頁到超鏈接為起點繼續重復這一訪問過程直至結束。一般搜索引擎的采集器在搜索過程中只取鏈長比(超鏈接數目與文檔長度的比值)小于某一閾值的頁面,數據采集于內容頁面,不涉及目錄頁面。在采集文檔的同時記錄各文檔的地址信息、修改時間、文檔長度等狀態信息,用于站點資源的監視和資料庫的更新。在采集過程中還可以構造適當的啟發策略,指導采集器的搜索路徑和采集范圍,減少文檔采集的盲目性。
(二)查詢表模塊
查詢表模塊是一個全文索引數據庫,他通過分析網頁,排除HTML等語言的標記符號,將出現的所有字或詞抽取出來,并記錄每個字詞出現的網址及相應位置(比如是出現在網頁標題中,還是出現在簡介或正文中),最后將這些數據存入查詢表,成為直接提供給用戶搜索的數據庫。
(三)檢索模塊
檢索模塊是實現檢索功能的程序,其作用是將用戶輸入的檢索表達式拆分成具有檢索意義的字或詞,再訪問查詢表,通過一定的匹配算法獲得相應的檢索結果。返回的結果一般根據詞頻和網頁鏈接中反映的信息建立統計模型,按相關度由高到低的順序輸出。
為您推薦
- 網站建設怎么做才能提高用戶體驗 2020-12-30
- 網站建設seo優化首要核心任務是內容 2020-12-30
- 進行SEO網站建設時需要注意哪些細節 2020-12-30
- 如何利用成功學思維做好網站建設后 2020-12-21
- 網站建設好后上線之前要做什么工作 2020-12-21
熱門標簽
天津SEO,海南SEO,云南SEO,貴州SEO,四川SEO,湖南SEO,湖北SEO,河南SEO,山西SEO,陜西SEO,甘肅SEO,青海SEO,江西SEO,臺灣SEO,香港SEO,澳門SEO,廣東SEO,福建SEO,重慶SEO,上海SEO,新疆SEO,西藏SEO,寧夏SEO,內蒙古SEO,廣西SEO,黑龍江SEO,吉林SEO,遼寧SEO,河北SEO,山東SEO,江蘇SEO,安徽SEO,浙江SEO,北京SEO- 上一篇:《SEO教程》2.2 搜索引擎分類
- 下一篇:《SEO教程》2.4 搜索引擎介紹