Python爬蟲是什麽？

為自動提取網頁的程序，它為搜索引擎從萬維網上下載網頁。

網絡爬蟲為壹個自動提取網頁的程序，它為搜索引擎從萬維網上下載網頁，是搜索引擎的重要組成。傳統爬蟲從壹個或若幹初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的壹定停止條件。

將根據壹定的搜索策略從隊列中選擇下壹步要抓取的網頁URL，並重復上述過程，直到達到系統的某壹條件時停止。另外，所有被爬蟲抓取的網頁將會被系統存貯，進行壹定的分析、過濾，並建立索引，以便之後的查詢和檢索。

擴展資料：

網絡爬蟲的相關要求規定：

1、由Python標準庫提供了系統管理、網絡通信、文本處理、數據庫接口、圖形系統、XML處理等額外的功能。

2、按照網頁內容目錄層次深淺來爬行頁面，處於較淺目錄層次的頁面首先被爬行。當同壹層次中的頁面爬行完畢後，爬蟲再深入下壹層繼續爬行。?

3、文本處理，包含文本格式化、正則表達式匹配、文本差異計算與合並、Unicode支持，二進制數據處理等功能。

百度百科-網絡爬蟲