為自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁。
網絡爬蟲為壹個自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。傳統爬蟲從壹個或若幹初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的壹定停止條件。
將根據壹定的搜索策略從隊列中選擇下壹步要抓取的網頁URL,並重復上述過程,直到達到系統的某壹條件時停止。另外,所有被爬蟲抓取的網頁將會被系統存貯,進行壹定的分析、過濾,並建立索引,以便之後的查詢和檢索。
擴展資料:
網絡爬蟲的相關要求規定:
1、由Python標準庫提供了系統管理、網絡通信、文本處理、數據庫接口、圖形系統、XML處理等額外的功能。
2、按照網頁內容目錄層次深淺來爬行頁面,處於較淺目錄層次的頁面首先被爬行。 當同壹層次中的頁面爬行完畢後,爬蟲再深入下壹層繼續爬行。?
3、文本處理,包含文本格式化、正則表達式匹配、文本差異計算與合並、Unicode支持,二進制數據處理等功能。
百度百科-網絡爬蟲