Python學習(16)--正則表達式1

1.正則表達式

正則表達式是一種小型的,高度專業化的編程語言。Python中內嵌了正則表達式,當我們需要匹配一個字符串的時候,就用到了Python爲我們提供的有關正則表達式處理的模塊，比如re模塊。

下面我們來介紹下正則表達式的使用和re模塊。

2.正則表達式元字符

上面我們提到處理正則表達式的re模塊,Python中的re模塊爲我們提供的一個較常用的處理正則表達式的方法就是findall(pattern,string),第一個參數pattern是正則表達式,第二個參數string是待匹配的字符串。

函數findall(pattern,string)和數據結構中的模式識別類似,不同的是findall(pattern,string)中的模式子串pattern更加靈活多變。下面舉一個模式匹配的例子:

[python] view plain copy

import re
s='abc'
print(re.findall(s,"aaabcaaabcaabc"))

在使用re模塊之前需要先導入re模塊,然後纔可以調用它爲我們提供的函數。如上,s爲一個模式子串,也是最簡單的正則表達式,函數findall(pattern,string)會將string中所有與正則表達式pattern匹配的子串都找出來,並返回一個由子串組成的列表。打印結果如下:

如上結果,re.findall(s,"aaabcaaabcaabc")會將"aaabcaaabcaabc"中所有與"abc"匹配的子串找出來,並封裝到列表中返回。

(1)[]

[]爲正則表達式的一個元字符,所匹配到的是一個字符,下面介紹下如何使用[]來匹配字符串。

實例1:形如[abc],匹配'a','b','c'中的任一個字符,且[abc]匹配到的只能是一個字符。代碼例子如下:

[python] view plain copy

import re
s3='t[io]p'
print(re.findall(s3,"tip top trp tep typ tiop"))

如上正則表達式s3='t[io]p',可以匹配到模式子串"tip"或者"top",即[io]=="i"或者[io]=="o"。代碼運行結果如下:

如上,函數findall(pattern,string)將"tip top trp tep typ tiop"中把匹配到s3的所有子串找到並返回。

實例2:形如[^abc]:匹配到非字符"a","b","c"的任意一個字符,即[^abc]=='d',[^abc]=='e',但[^abc]!="a"||"b"||"c",^在[]中的開始位置使用表示的是取非符號。代碼例子如下:

[python] view plain copy

import re
s4='t[^io]p'
print(re.findall(s4,"tip top trp tep typ tiop tp"))

如上,正則表達式s4='t[^io]p',首先s4匹配到的是一個長度爲3的字符串,其次[^io]匹配到的爲非"i"和"o"的任意一個字符,如可以匹配到"tup","thp",但是匹配不到"tip","top"。代碼打印結果如下:

實例3:形如[a-z]表示的是一個從字符"a"到字符"z"的任意一個字符。代碼例子如下:

[python] view plain copy

import re
s="t[a-c]p"
print(re.findall(s,"tap tbp tcp tdp tp tiop tgp tbcp"))

如上代碼,正則表達式s="t[a-c]p",首先s匹配到的是一個長度爲3的字符串,其次[a-c]=="a"||"b"||"c",即s匹配到的模式子串只能是"tap","tbp","tcp",代碼打印結果如下:

如果需要匹配的字符範圍不只一個,那麼多個字符範圍依次寫在[]中就可以了,如下代碼:

[python] view plain copy

import re
s9="x[1-9a-z]x"
print(re.findall(s9,"x1x x2x x3x x4x xax xbx xzx "))

如上s9="x[1-9a-z]x",[1-9a-z]有兩個字符範圍,分別是'1'-'9'和'a'-'z',可以匹配到的字符是所有的數字字符和小寫字母字符。代碼打印結果如下:

(2)^

以上我們提到,元字符^在[]中首位表示取非,當元字符^單獨使用並作爲正則表達式的首位字符時,表示的是查詢^後的模式子串是否爲待匹配主串的開始字符串,如"^abc"表示查詢待匹配主串是否以模式子串"abc"作爲開頭,如果是,則返回模式子串"abc",否則返回空。

代碼例子如下:

[python] view plain copy

import re
s5="^hello"
print(re.findall(s5,"hello world,hello myGF"))
print(re.findall(s5,"world,hello myGF"))

如上,s5="^hello"表示查找待匹配子串的開始是否是"hello",如果是則返回模式子串"hello",如果不是則返回空。代碼打印結果如下:

(3)$

元字符$在正則表達式的結尾使用, 表示的是查詢待匹配主串是否以$前的模式子串結尾,如"abc$」表示查找待匹配字符串的結尾字符串是否是"abc",如果是則返回"abc",否則返回空。代碼例子如下:

[python] view plain copy

import re
s5="myGF$"
print(re.findall(s5,"hello world,hello myGF"))
print(re.findall(s5,"hello world,hello"))

如上,正則表達式s5="myGF$"表示查找待匹配主串的結尾字符串是否是"myGF",如果是返回"myGF",否則返回空。代碼打印結果如下:

(4)注意事項

事項一:$在[]中使用的時候是無效的,$只是被當做一個普通字符來進行模式匹配。如[abc$]可以匹配到的字符有'a','b','c','$'。'$'被當做普通字符,與'a','b','c'一樣處理。如下代碼:

[python] view plain copy

import re
s6="t[abc$]"
print(re.findall(s6,"ta"))
print(re.findall(s6,"tb"))
print(re.findall(s6,"tc"))
print(re.findall(s6,"t$"))

如上所示,s6='t[abc$]',可以匹配到的模式子串如下:"ta","tb","tc","t$"。運行結果如下:

事項二:元字符^在[]中使用,只有在^位於[]開頭的情況下才表示取非的含義,在其他位置使用都會被當做普通字符來處理。代碼如下:

[python] view plain copy

import re
s7="t[a^bc]"
print(re.findall(s7,"ta tb tc t^ td"))

如上s7="t[a^bc]",^在[a^bc]的位置並不是首位字符,所以^會被當做普通字符"^"來處理,s7可以匹配到的模式子串爲,"ta","t^","tb","tc"。代碼打印結果如下:

下一節我們會繼續介紹正則表達式,敬請期待。

原文地址http://www.bieryun.com/2345.html