python 爬蟲錯誤記錄

時間 2020-07-21 標籤 python 爬蟲錯誤記錄

一、UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcf in position 116: invalid continuation bytehtml

問題緣由：html = response.read().decode('utf-8')，代碼裏面這樣讀取網頁，可是目標小說網站的網頁編碼爲gbk性能

解決辦法：html = response.read().decode('gbk') 改成gbk編碼便可網站

二、BeautifulSoup解析頁面後信息丟失編碼

問題分析：soup = BeautifulSoup(result,"lxml")，找資料和查證發現是由於使用「lxml」的緣由。code

解決辦法：soup = BeautifulSoup(html, 'html.parser') 改成html.parserxml

（看別人說html.parser性能比較差，由於接觸Python太淺暫時Mark，之後再作深刻調查）htm