2.Pyspider:是壹個用Python實現的功能強大的網絡爬蟲系統,可以編寫腳本,調度函數並在瀏覽器界面實時查看爬行結果,後端存儲有常用數據庫的爬行結構,定時設置任務和任務優先級。
3.Crawley:可以高速抓取相應的網站內容,支持關系型和非關系型數據庫,數據可以導出為json、xml等。
4.Portia是壹個開源的可視化爬蟲工具,它可以讓妳在沒有任何編程知識的情況下抓取網站,只需對妳感興趣的頁面進行註釋,並創建壹個蜘蛛來抓取相似頁面的數據。
5.報紙:可以用來提取新聞,文章和內容分析,使用多線程,支持10以上的編程語言。
6.美湯:它是壹個Python庫,可以從HTML或xml文件中提取數據,通過妳喜歡的轉換器實現文檔導航、文檔搜索、文檔修改的常用方式;同時,它幫助妳節省幾個小時甚至幾天的工作時間。
7.Grab是壹個用於創建web抓取器的Python框架。使用Grab,您可以創建各種復雜的web爬行工具,從簡單的五行腳本到處理數萬個網頁的復雜異步web爬行工具。Grab提供了壹個api來執行網絡請求和處理接收到的內容。
8.Cola:它是壹個分布式爬蟲框架。對於用戶來說,只需要編寫幾個具體的函數,不需要關註分布式操作的細節。任務會自動分配到多臺機器上,整個過程對用戶透明。