Python爬蟲開發工程師,從某個網站的某個頁面(通常是首頁)開始,讀取網頁的內容,找到網頁中的其他鏈接地址,然後通過這些鏈接地址找到下壹個網頁,以此類推,直到這個網站的所有網頁都被爬取。
如果把整個互聯網看成壹個網站,那麽網絡蜘蛛就可以利用這個原理抓取互聯網上的所有頁面。
爬蟲,也就是網絡爬蟲,可以理解為在互聯網上爬行的蜘蛛。互聯網就像壹張大網,爬蟲就是在這張網上爬來爬去的蜘蛛。如果它遇到獵物(它需要的資源),就會去搶。
比如它在爬壹個網頁,在這個網頁裏它找到了壹條路,這條路其實是壹個網頁的超鏈接,所以它可以爬到另壹個網頁去獲取數據。
擴展數據:
python的發展
Python語言自20世紀90年代初誕生以來,已經廣泛應用於系統管理任務和Web編程中。
Python是由荷蘭人吉多·範·羅蘇姆創建的。1989聖誕節期間,在阿姆斯特丹,Guido為了打發聖誕節的無聊,決定開發壹個新的腳本解釋器作為ABC語言的傳承。
Python(意為大蟒蛇)被選為編程語言的名稱,取自電視喜劇《巨蟒劇團的飛行馬戲團》,該劇於20世紀70年代在英國首播。
就這樣,Python在Guido手裏誕生了。可以說Python是從ABC發展而來,主要是受Modula-3(另壹種為小群體設計的漂亮而強大的語言)的影響,結合了Unix shell和c的習慣。
Python已經成為最流行的編程語言之壹,自2004年以來,它的使用壹直呈線性增長。Python 2發布於2000年6月10。穩定版是Python 2.7,Python 3發布於2008年2月3日,與Python 2不完全兼容。?
由於Python語言的簡單性、可讀性和擴展性,國外使用Python進行科學計算的研究機構越來越多,壹些知名大學也采用Python教授編程課程。
比如卡耐基梅隆大學的編程基礎,麻省理工的計算機科學和編程導論都是用Python語言授課的。許多開源科學計算軟件包都提供了Python調用接口,如著名的計算機視覺庫OpenCV、三維可視化庫VTK和醫學圖像處理庫ITK。
百度百科-—python