如何開始使用Python爬蟲

我接觸爬行動物也有1個月了。從python小白到破譯各種反爬蟲機制，我告訴妳我的方向:

1，學會使用解析網頁的功能，比如:

進口？urllib.request

如果？__name__？==?__main__ ':

網址？=?"..."

數據？=?urllib.request.urlopen(url)。read()？# urllib.request.urlope(要解析的URL)

數據？=?data.decode('unicode_escape '，' ignore ')？#在unicode_escape模式下解碼

打印(數據)

2.學習正則表達式:

正則表達式的符號意義如下，正則表達式是過濾掉上面數據中的信息，例如:

def get_all(數據):

reg = r '(搜索。+)(" )(mars_sead= "。+title= ")(。+)(" data-id= ")"

all =重新編譯(reg)；

alllist = re.findall(all，data)

返回所有列表

3.將結果壓入數組:

如果？__name__？==?__main__ ':

信息= []

info.append(get_all(data))

4.將數組寫入excel:

導入xlsxwriter

如果？__name__？==?__main__ ':

信息= []

info.append(get_all(data))

workbook = xlsxwriter . workbook(' C:\ \ Users \ \ Administrator \ \ Desktop \ \ What ' s file name。xlsx’)？#創建壹個Excel文件

工作表= workbook.add_worksheet()？#創建壹個工作表對象

對於範圍內的I(0，len(info)):

Worksheet.write (row，column，info[i]，font)#逐行寫入info[i]。

Workbook.close()#關閉excel

簡單的爬蟲做了，高級的爬蟲沒教。妳還沒接觸過，所以不能理解。