【Python自學筆記】爬蟲自學之正則表達式的使用


正則表達式

  • 什麼是正則表達式
    正則表達式
  • 其中find.all是我們最常用的一個方法

正則表達式常用符號

正則表達式符號

  • . 符號在添加參數:re.DOTALL 或 re.S 的時候可以匹配換行符
  • 我們在寫爬蟲的時候最常用的符號是 .*?,其中 ? 表示非貪婪。還有原始字符串 r 的使用
  • re.sub 替換,具體用法參照下面例子:
    re.sub
  • re.compile的用法,參照下圖示例
    re.compile
  • 正則表達式括號的使用,表示提取括號內匹配到的內容,見示例
    正則表達式括號

正則表達式小結

  • 爬蟲中最常用的正則表達式是: re.findall(r"a(.*?)b","str"),能夠返回括號中匹配到的內容,其中a和b起到了定位的效果
    • 原始字符串r的作用:但待匹配的字符串中有反斜槓,使用r能夠忽視反斜槓帶來的轉移效果
    • 點號默認情況匹配不到\n
    • \s能夠匹配空白字符,不僅僅包含空格,還有\t\r\n