當前位置:名人名言大全網 - 心情說說 - 如何開始使用Python爬蟲

如何開始使用Python爬蟲

我接觸爬行動物也有1個月了。從python小白到破譯各種反爬蟲機制,我告訴妳我的方向:

1,學會使用解析網頁的功能,比如:

進口?urllib.request

如果?__name__?==?__main__ ':

網址?=?"..."

數據?=?urllib.request.urlopen(url)。read()?# urllib.request.urlope(要解析的URL)

數據?=?data.decode('unicode_escape ',' ignore ')?#在unicode_escape模式下解碼

打印(數據)

2.學習正則表達式:

正則表達式的符號意義如下,正則表達式是過濾掉上面數據中的信息,例如:

def get_all(數據):

reg = r '(搜索。+)(" )(mars_sead= "。+title= ")(。+)(" data-id= ")"

all =重新編譯(reg);

alllist = re.findall(all,data)

返回所有列表

3.將結果壓入數組:

如果?__name__?==?__main__ ':

信息= []

info.append(get_all(data))

4.將數組寫入excel:

導入xlsxwriter

如果?__name__?==?__main__ ':

信息= []

info.append(get_all(data))

workbook = xlsxwriter . workbook(' C:\ \ Users \ \ Administrator \ \ Desktop \ \ What ' s file name。xlsx’)?#創建壹個Excel文件

工作表= workbook.add_worksheet()?#創建壹個工作表對象

對於範圍內的I(0,len(info)):

Worksheet.write (row,column,info[i],font)#逐行寫入info[i]。

Workbook.close()#關閉excel

簡單的爬蟲做了,高級的爬蟲沒教。妳還沒接觸過,所以不能理解。