python 爬蟲錯誤記錄

一、UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcf in position 116: invalid continuation bytehtml

問題緣由:html = response.read().decode('utf-8'),代碼裏面這樣讀取網頁,可是目標小說網站的網頁編碼爲gbk性能

解決辦法:html = response.read().decode('gbk') 改成gbk編碼便可網站

二、BeautifulSoup解析頁面後信息丟失編碼

問題分析:soup = BeautifulSoup(result,"lxml"),找資料和查證發現是由於使用「lxml」的緣由。code

解決辦法:soup = BeautifulSoup(html, 'html.parser') 改成html.parserxml

(看別人說html.parser性能比較差,由於接觸Python太淺暫時Mark,之後再作深刻調查)htm