
正則表達(dá)式是很多程序員,甚至是一些有了多年經(jīng)驗(yàn)的開(kāi)發(fā)者薄弱的一項(xiàng)技能。大家都很多時(shí)候都會(huì)覺(jué)得正則表達(dá)式難記、難學(xué)、難用,但不可否認(rèn)的是正則表達(dá)式是一項(xiàng)很重要的技能,所有我將學(xué)習(xí)和使用正則表達(dá)式時(shí)的關(guān)鍵點(diǎn)整理如下,供大家參考。 不同語(yǔ)言中的正則表達(dá)式寫(xiě)法有少許差異,本文將使用Javascript中的語(yǔ)法。 什么是正則表達(dá)式?正則表達(dá)式(Regular 或Regex),是用于定義某種特定搜索模式的字符組合。正則表達(dá)式可用于匹配、查找和替換文本中的字符,進(jìn)行輸入數(shù)據(jù)的驗(yàn)證,查找英文單詞的拼寫(xiě)錯(cuò)誤等。 調(diào)試工具下面列出了幾款優(yōu)秀的在線調(diào)試工具,如果你想創(chuàng)建或者調(diào)試正則表達(dá)式可能會(huì)需要。個(gè)人比較偏好Regex101,regex101支持在正則表達(dá)式的不同flavor之間切換、解釋你的正則表達(dá)式、顯示匹配信息、提供常用語(yǔ)法參考等功能,非常強(qiáng)大。 


開(kāi)始在Javascript中,一個(gè)正則表達(dá)式以 / 開(kāi)頭和結(jié)尾,所以簡(jiǎn)單至 /hello regexp/ 就是一個(gè)正則表達(dá)式。 Flags(標(biāo)志符或修飾符)Flags寫(xiě)在結(jié)束的/ 之后,可以影響整個(gè)正則表達(dá)式的匹配行為。常見(jiàn)的flags有: g :全局匹配(global);正則表達(dá)式默認(rèn)只會(huì)返回第一個(gè)匹配結(jié)果,使用標(biāo)志符g 則可以返回所有匹配
i :忽略大小寫(xiě)(case-insensitive);在匹配時(shí)忽略英文字母的大小寫(xiě)
m :多行匹配(multiline);將開(kāi)始和結(jié)束字符(^和$)視為在多行上工作,即分別匹配每一行(由 \n 或 \r 分割)的開(kāi)始和結(jié)束,而不只是只匹配整個(gè)輸入字符串的最開(kāi)始和最末尾處
Flags可以組合使用,如: 
Character Sets(字符集合)用于匹配字符集合中的任意一個(gè)字符,常見(jiàn)的字符集有: [xyz] :匹配 "x" 或"y" `"z"`
[^xyz] :補(bǔ)集,匹配除 "x" "y" "z" 的其他字符
[a-z] :匹配從 "a" 到 "z" 的任意字符
[^a-n] :補(bǔ)集,匹配除 "a" 到 "n" 的其他字符
[A-Z] :匹配從 "A" 到 "Z" 的任意字符
[0-9] :匹配從 "0" 到 "9" 的任意數(shù)字
比如匹配所有的字母和數(shù)字可以寫(xiě)成:/[a-zA-Z0-9]/ 或者 /[a-z0-9]/i 。 Quantifiers (量詞)在實(shí)際使用中,我們常常需要匹配同一類(lèi)型的字符多次,比如匹配11位的手機(jī)號(hào),我們不可能將 [0-9] 寫(xiě)11遍,此時(shí)我們可以使用Quantifiers來(lái)實(shí)現(xiàn)重復(fù)匹配。 {n} :匹配 n 次
{n,m} :匹配 n-m 次
{n,} :匹配 >=n 次
? :匹配 0 || 1 次
* :匹配 >=0 次,等價(jià)于 {0,}
+ :匹配 >=1 次,等價(jià)于 {1,}
Metacharacters(元字符)在正則表達(dá)式中有一些具有特殊含義的字母,被稱為元字符,簡(jiǎn)言之,元字符就是描述字符的字符,它用于對(duì)字符表達(dá)式的內(nèi)容、轉(zhuǎn)換及各種操作信息進(jìn)行描述。 常見(jiàn)的元字符有: \d :匹配任意數(shù)字,等價(jià)于 [0-9]
\D :匹配任意非數(shù)字字符;\d 的補(bǔ)集
\w :匹配任意基本拉丁字母表中的字母和數(shù)字,以及下劃線;等價(jià)于 [A-Za-z0-9_]
\W :匹配任意非基本拉丁字母表中的字母和數(shù)字,以及下劃線;\w 的補(bǔ)集
\s :匹配一個(gè)空白符,包括空格、制表符、換頁(yè)符、換行符和其他Unicode空格
\S :匹配一個(gè)非空白符;\s 的補(bǔ)集
\b :匹配一個(gè)零寬單詞邊界,如一個(gè)字母與一個(gè)空格之間;例如,/\bno/ 匹配 "at noon" 中的 "no" ,/ly\b/ 匹配 "possibly yesterday." 中的 "ly"
\B :匹配一個(gè)零寬非單詞邊界,如兩個(gè)字母之間或兩個(gè)空格之間;例如,/\Bon/ 匹配 "at noon" 中的 "on" ,/ye\B/ 匹配 "possibly yesterday." 中的 "ye"
\t :匹配一個(gè)水平制表符(tab)
\n :匹配一個(gè)換行符(newline)
\r :匹配一個(gè)回車(chē)符(carriage return)
Special Characters (特殊字符)正則中存在一些特殊字符,它們不會(huì)按照字面意思進(jìn)行匹配,而有特殊的意義,比如前文講過(guò)用于量詞的? 、* 、+ 。其他常見(jiàn)的特殊字符有: \ :轉(zhuǎn)義字符,可以將普通字符轉(zhuǎn)成特殊字符。比如 \w ;也可以將特殊字符轉(zhuǎn)成字面意思,比如 \+ 匹配 "+"
. :匹配任意單個(gè)字符,但是換行符除外:\n , \r , \u2028 或 \u2029 ;在字符集中([.] ),無(wú)特殊含義,即表示 '.' 的字面意思
| :替換字符(alternate character),匹配 | 前或后的表達(dá)式。比如需要同時(shí)匹配 "bear" 和 "pear" ,可以使用 /(b|p)ear/ 或者 /bear|pear/ ;但是不能用 /b|pear/ ,該表達(dá)式只能匹配 "b" 和 "pear"
^ :匹配輸入的開(kāi)始。比如,/^A/ 不匹配 "an Apple" 中的 "A" ,但匹配 "An apple" 中的 "A"
$ :匹配輸入的結(jié)尾。比如,/t$/ 不匹配 "eater" 中的 "t" ,但匹配 "eat" 中的 "t" 。^ 和 $ 在表單驗(yàn)證時(shí)常需要使用,因?yàn)樾枰?yàn)證從開(kāi)始到結(jié)尾的一個(gè)完整輸入,而不是匹配輸入中的某一段
Groups(分組)(xyz) :捕獲分組(Capturing Group),匹配并捕獲匹配項(xiàng);例如,/(foo)/ 匹配且捕獲 "foo bar." 中的 "foo" 。被匹配的子字符串可以在結(jié)果數(shù)組的元素 [1], ..., [n] 中找到,或在被定義的 RegExp 對(duì)象的屬性
9 中找到 (?:xyz) :非捕獲分組(Non-capturing Group),匹配但不會(huì)捕獲匹配項(xiàng);匹配項(xiàng)不能再次被訪問(wèn)到
\n :n 是一個(gè)正整數(shù),表示反向引用(back reference),指向正則表達(dá)式中第n個(gè)括號(hào)(從左開(kāi)始數(shù))中匹配的子字符串;例如,/apple(,)\sorange\1/ 匹配 "apple, orange, cherry, peach." 中的 "apple,orange,"
Assertion(斷言)x(?=y) :僅匹配被y 跟隨的x ;例如,/bruce(?=wayne)/ ,如果"bruce" 后面跟著wayne ,則匹配之。/bruce(?=wayne|banner)/ ,如果"bruce" 后面跟著"wayne" 或者banner ,則匹配之。但是,"wayne" 和 "banner" 都不會(huì)在匹配結(jié)果中出現(xiàn)
x(?!y) :僅匹配不被y 跟隨的x ;例如,/\d+(?!\.)/ 只會(huì)匹配不被 "." 跟隨的數(shù)字。
/\d+(?!\.)/.exec('3.141') 匹配 "141" ,而不是 "3.141"
應(yīng)用上面羅列出了這么多正則表達(dá)式的語(yǔ)法和規(guī)則,可以在一定程度上幫助我們分析和理解一段正則表達(dá)式的作用,但是如何將這些規(guī)則組合并創(chuàng)造出有特定作用的表達(dá)式還需要我們自己多加練習(xí),下面舉幾個(gè)例子來(lái)說(shuō)明運(yùn)用這些規(guī)則。 1. 匹配手機(jī)號(hào)碼我們先從比較簡(jiǎn)單的匹配手機(jī)號(hào)碼開(kāi)始。目前國(guó)內(nèi)的手機(jī)號(hào)碼是1(3/4/5/7/8) 開(kāi)頭的11位數(shù)字,因此手機(jī)號(hào)碼的正則可以分解為以下幾部分: 以 1 開(kāi)頭:/^1/ 第2位為3、4、5、7、8 中的一個(gè):/[34578]/ 或 /(3|4|5|7|8)/ 剩余3-11位均為數(shù)字,并以數(shù)字結(jié)尾:/\d{9}$/
組合起來(lái)即為 /^1[34578]\d{9}$/ 或 /^1(3|4|5|7|8)\d{9}$/ ,因?yàn)槭褂貌东@括號(hào)存在性能損失,所以推薦使用第一種寫(xiě)法。 2. 匹配電子郵件標(biāo)準(zhǔn)的電子郵件組成為 <yourname>@<domain>.<extension><optional-extension> , 每部分的格式標(biāo)準(zhǔn)為(進(jìn)行了相應(yīng)的簡(jiǎn)化,主要為展示如何書(shū)寫(xiě)正則): yourname:任意英文字母(a-z/A-Z)、數(shù)字(0-9)、下劃線(_)、英文句點(diǎn)(.)、連字符(-),長(zhǎng)度大于0 domain:任意英文字母(a-z/A-Z)、數(shù)字(0-9)、連字符(-),長(zhǎng)度大于0 extension:任意英文字母(a-z/A-Z),長(zhǎng)度2-8 optional-extension:"." 開(kāi)頭,后面跟任意英文字母(a-z/A-Z),長(zhǎng)度2-8,可選
每部分的正則表達(dá)式為: yourname:/[a-z\d._-]+/ domain:/[a-z\d-]+/ extension: /[a-z]{2,8}/ optional-extension:/(\.[a-z]{2,8})?/
組合起來(lái)形成最后的正則表達(dá)式:/^([a-z\d._-]+)@([a-z\d-]+)\.([a-z]{2,8})(\.[a-z]{2,8})?$/ ;為了增加可讀性可以將每部分用"()" 包起來(lái),并不要忘記起始和結(jié)束符 ^$ 。 結(jié)語(yǔ)今天關(guān)于正則表達(dá)式的普及就先到這兒,希望對(duì)大家以后寫(xiě)正則能有一點(diǎn)幫助。關(guān)于本文中沒(méi)有涉及到的知識(shí)可以參考以下鏈接: Wikipedia - Regular MDN - Regular Microsoft - Regular Reference W3schools - Regexp
|