菜鳥學院
【Python自學筆記】爬蟲自學之正則表達式的使用
時間 2021-01-17
標籤
python自學筆記
字符串
正則表達式
python
shell
linux
文章目錄
正則表達式
正則表達式常用符號
正則表達式小結
正則表達式
什麼是正則表達式
其中
find.all
是我們最常用的一個方法
正則表達式常用符號
.
符號在添加參數:
re.DOTALL 或 re.S
的時候可以匹配換行符
我們在寫爬蟲的時候最常用的符號是
.*?
,其中 ? 表示非貪婪。還有原始字符串
r
的使用
re.sub
替換,具體用法參照下面例子:
re.compile
的用法,參照下圖示例
正則表達式括號的使用,表示提取括號內匹配到的內容,見示例
正則表達式小結
爬蟲中最常用的正則表達式是:
re.findall(r"a(.*?)b","str")
,能夠返回括號中匹配到的內容,其中a和b起到了定位的效果
原始字符串r的作用:但待匹配的字符串中有反斜槓,使用r能夠忽視反斜槓帶來的轉移效果
點號默認情況匹配不到
\n
\s
能夠匹配空白字符,不僅僅包含空格,還有
\t\r\n