1,學會使用解析網頁的功能,比如:
進口?urllib.request
如果?__name__?==?__main__ ':
網址?=?"..."
數據?=?urllib.request.urlopen(url)。read()?# urllib.request.urlope(要解析的URL)
數據?=?data.decode('unicode_escape ',' ignore ')?#在unicode_escape模式下解碼
打印(數據)
2.學習正則表達式:
正則表達式的符號意義如下,正則表達式是過濾掉上面數據中的信息,例如:
def get_all(數據):
reg = r '(搜索。+)(" )(mars_sead= "。+title= ")(。+)(" data-id= ")"
all =重新編譯(reg);
alllist = re.findall(all,data)
返回所有列表
3.將結果壓入數組:
如果?__name__?==?__main__ ':
信息= []
info.append(get_all(data))
4.將數組寫入excel:
導入xlsxwriter
如果?__name__?==?__main__ ':
信息= []
info.append(get_all(data))
workbook = xlsxwriter . workbook(' C:\ \ Users \ \ Administrator \ \ Desktop \ \ What ' s file name。xlsx’)?#創建壹個Excel文件
工作表= workbook.add_worksheet()?#創建壹個工作表對象
對於範圍內的I(0,len(info)):
Worksheet.write (row,column,info[i],font)#逐行寫入info[i]。
Workbook.close()#關閉excel
簡單的爬蟲做了,高級的爬蟲沒教。妳還沒接觸過,所以不能理解。