還不會(huì)正則表達(dá)式？看這篇！

看見(jiàn)就非常 2020-02-12

展開(kāi)全文

banner

正則表達(dá)式是很多程序員，甚至是一些有了多年經(jīng)驗(yàn)的開(kāi)發(fā)者薄弱的一項(xiàng)技能。大家都很多時(shí)候都會(huì)覺(jué)得正則表達(dá)式難記、難學(xué)、難用，但不可否認(rèn)的是正則表達(dá)式是一項(xiàng)很重要的技能，所有我將學(xué)習(xí)和使用正則表達(dá)式時(shí)的關(guān)鍵點(diǎn)整理如下，供大家參考。

不同語(yǔ)言中的正則表達(dá)式寫(xiě)法有少許差異，本文將使用Javascript中的語(yǔ)法。

什么是正則表達(dá)式？

正則表達(dá)式（Regular 或Regex），是用于定義某種特定搜索模式的字符組合。正則表達(dá)式可用于匹配、查找和替換文本中的字符，進(jìn)行輸入數(shù)據(jù)的驗(yàn)證，查找英文單詞的拼寫(xiě)錯(cuò)誤等。

調(diào)試工具

下面列出了幾款優(yōu)秀的在線調(diào)試工具，如果你想創(chuàng)建或者調(diào)試正則表達(dá)式可能會(huì)需要。個(gè)人比較偏好Regex101，regex101支持在正則表達(dá)式的不同flavor之間切換、解釋你的正則表達(dá)式、顯示匹配信息、提供常用語(yǔ)法參考等功能，非常強(qiáng)大。

Regex101

regex101

Regexr

Regexr

Regexpal

Regexpal

開(kāi)始

在Javascript中，一個(gè)正則表達(dá)式以 / 開(kāi)頭和結(jié)尾，所以簡(jiǎn)單至 /hello regexp/ 就是一個(gè)正則表達(dá)式。

Flags（標(biāo)志符或修飾符）

Flags寫(xiě)在結(jié)束的/之后，可以影響整個(gè)正則表達(dá)式的匹配行為。常見(jiàn)的flags有：

g：全局匹配（global）；正則表達(dá)式默認(rèn)只會(huì)返回第一個(gè)匹配結(jié)果，使用標(biāo)志符g則可以返回所有匹配
i：忽略大小寫(xiě)（case-insensitive）；在匹配時(shí)忽略英文字母的大小寫(xiě)
m：多行匹配（multiline）；將開(kāi)始和結(jié)束字符（^和$）視為在多行上工作，即分別匹配每一行（由 \n 或 \r 分割）的開(kāi)始和結(jié)束，而不只是只匹配整個(gè)輸入字符串的最開(kāi)始和最末尾處

Flags可以組合使用，如：

flags combination

Character Sets（字符集合）

用于匹配字符集合中的任意一個(gè)字符，常見(jiàn)的字符集有：

[xyz]：匹配 "x"或"y"`"z"`
[^xyz]：補(bǔ)集，匹配除 "x" "y" "z"的其他字符
[a-z]：匹配從 "a" 到 "z" 的任意字符
[^a-n]：補(bǔ)集，匹配除 "a" 到 "n" 的其他字符
[A-Z]：匹配從 "A" 到 "Z" 的任意字符
[0-9]：匹配從 "0" 到 "9" 的任意數(shù)字

比如匹配所有的字母和數(shù)字可以寫(xiě)成：/[a-zA-Z0-9]/ 或者 /[a-z0-9]/i。

Quantifiers (量詞)

在實(shí)際使用中，我們常常需要匹配同一類(lèi)型的字符多次，比如匹配11位的手機(jī)號(hào)，我們不可能將 [0-9] 寫(xiě)11遍，此時(shí)我們可以使用Quantifiers來(lái)實(shí)現(xiàn)重復(fù)匹配。

{n}：匹配 n 次
{n,m}：匹配 n-m 次
{n,}：匹配 >=n 次
?：匹配 0 || 1 次
*：匹配 >=0 次，等價(jià)于 {0,}
+：匹配 >=1 次，等價(jià)于 {1,}

Metacharacters（元字符）

在正則表達(dá)式中有一些具有特殊含義的字母，被稱為元字符，簡(jiǎn)言之，元字符就是描述字符的字符，它用于對(duì)字符表達(dá)式的內(nèi)容、轉(zhuǎn)換及各種操作信息進(jìn)行描述。

常見(jiàn)的元字符有：

\d：匹配任意數(shù)字，等價(jià)于 [0-9]
\D：匹配任意非數(shù)字字符；\d 的補(bǔ)集
\w：匹配任意基本拉丁字母表中的字母和數(shù)字，以及下劃線；等價(jià)于 [A-Za-z0-9_]
\W：匹配任意非基本拉丁字母表中的字母和數(shù)字，以及下劃線；\w 的補(bǔ)集
\s：匹配一個(gè)空白符，包括空格、制表符、換頁(yè)符、換行符和其他Unicode空格
\S：匹配一個(gè)非空白符；\s的補(bǔ)集
\b：匹配一個(gè)零寬單詞邊界，如一個(gè)字母與一個(gè)空格之間；例如，/\bno/ 匹配 "at noon" 中的 "no"，/ly\b/ 匹配 "possibly yesterday." 中的 "ly"
\B：匹配一個(gè)零寬非單詞邊界，如兩個(gè)字母之間或兩個(gè)空格之間；例如，/\Bon/ 匹配 "at noon" 中的 "on"，/ye\B/ 匹配 "possibly yesterday." 中的 "ye"
\t：匹配一個(gè)水平制表符（tab)
\n：匹配一個(gè)換行符（newline)
\r：匹配一個(gè)回車(chē)符（carriage return)

Special Characters (特殊字符)

正則中存在一些特殊字符，它們不會(huì)按照字面意思進(jìn)行匹配，而有特殊的意義，比如前文講過(guò)用于量詞的?、*、+。其他常見(jiàn)的特殊字符有：

\：轉(zhuǎn)義字符，可以將普通字符轉(zhuǎn)成特殊字符。比如 \w；也可以將特殊字符轉(zhuǎn)成字面意思，比如 \+ 匹配 "+"
.：匹配任意單個(gè)字符，但是換行符除外：\n, \r, \u2028 或 \u2029；在字符集中（[.]），無(wú)特殊含義，即表示 '.' 的字面意思
|：替換字符（alternate character），匹配 | 前或后的表達(dá)式。比如需要同時(shí)匹配 "bear" 和 "pear"，可以使用 /(b|p)ear/ 或者 /bear|pear/；但是不能用 /b|pear/，該表達(dá)式只能匹配 "b" 和 "pear"
^：匹配輸入的開(kāi)始。比如，/^A/ 不匹配 "an Apple" 中的 "A"，但匹配 "An apple" 中的 "A"
$：匹配輸入的結(jié)尾。比如，/t$/ 不匹配 "eater" 中的 "t"，但匹配 "eat" 中的 "t"。^ 和 $ 在表單驗(yàn)證時(shí)常需要使用，因?yàn)樾枰?yàn)證從開(kāi)始到結(jié)尾的一個(gè)完整輸入，而不是匹配輸入中的某一段

Groups（分組）

(xyz)：捕獲分組（Capturing Group），匹配并捕獲匹配項(xiàng)；例如，/(foo)/ 匹配且捕獲 "foo bar." 中的 "foo"。被匹配的子字符串可以在結(jié)果數(shù)組的元素 [1], ..., [n] 中找到，或在被定義的 RegExp 對(duì)象的屬性
9 中找到
(?:xyz)：非捕獲分組（Non-capturing Group），匹配但不會(huì)捕獲匹配項(xiàng)；匹配項(xiàng)不能再次被訪問(wèn)到
\n：n 是一個(gè)正整數(shù)，表示反向引用（back reference），指向正則表達(dá)式中第n個(gè)括號(hào)（從左開(kāi)始數(shù)）中匹配的子字符串；例如，/apple(,)\sorange\1/ 匹配 "apple, orange, cherry, peach." 中的 "apple,orange,"

Assertion（斷言）

x(?=y)：僅匹配被y跟隨的x；例如，/bruce(?=wayne)/，如果"bruce"后面跟著wayne，則匹配之。/bruce(?=wayne|banner)/ ，如果"bruce"后面跟著"wayne"或者banner，則匹配之。但是，"wayne" 和 "banner" 都不會(huì)在匹配結(jié)果中出現(xiàn)
x(?!y)：僅匹配不被y跟隨的x；例如，/\d+(?!\.)/ 只會(huì)匹配不被 "." 跟隨的數(shù)字。

/\d+(?!\.)/.exec('3.141') 匹配 "141"，而不是 "3.141"

應(yīng)用

上面羅列出了這么多正則表達(dá)式的語(yǔ)法和規(guī)則，可以在一定程度上幫助我們分析和理解一段正則表達(dá)式的作用，但是如何將這些規(guī)則組合并創(chuàng)造出有特定作用的表達(dá)式還需要我們自己多加練習(xí)，下面舉幾個(gè)例子來(lái)說(shuō)明運(yùn)用這些規(guī)則。

1. 匹配手機(jī)號(hào)碼

我們先從比較簡(jiǎn)單的匹配手機(jī)號(hào)碼開(kāi)始。目前國(guó)內(nèi)的手機(jī)號(hào)碼是1(3/4/5/7/8)開(kāi)頭的11位數(shù)字，因此手機(jī)號(hào)碼的正則可以分解為以下幾部分：

以 1 開(kāi)頭：/^1/
第2位為3、4、5、7、8中的一個(gè)：/[34578]/ 或 /(3|4|5|7|8)/
剩余3-11位均為數(shù)字，并以數(shù)字結(jié)尾：/\d{9}$/

組合起來(lái)即為 /^1[34578]\d{9}$/ 或 /^1(3|4|5|7|8)\d{9}$/，因?yàn)槭褂貌东@括號(hào)存在性能損失，所以推薦使用第一種寫(xiě)法。

2. 匹配電子郵件

標(biāo)準(zhǔn)的電子郵件組成為 <yourname>@<domain>.<extension><optional-extension>，

每部分的格式標(biāo)準(zhǔn)為（進(jìn)行了相應(yīng)的簡(jiǎn)化，主要為展示如何書(shū)寫(xiě)正則）：

yourname：任意英文字母（a-z/A-Z）、數(shù)字（0-9）、下劃線（_）、英文句點(diǎn)（.）、連字符（-），長(zhǎng)度大于0
domain：任意英文字母（a-z/A-Z）、數(shù)字（0-9）、連字符（-），長(zhǎng)度大于0
extension：任意英文字母（a-z/A-Z），長(zhǎng)度2-8
optional-extension："."開(kāi)頭，后面跟任意英文字母（a-z/A-Z），長(zhǎng)度2-8，可選

每部分的正則表達(dá)式為：

yourname：/[a-z\d._-]+/
domain：/[a-z\d-]+/
extension： /[a-z]{2,8}/
optional-extension：/(\.[a-z]{2,8})?/

組合起來(lái)形成最后的正則表達(dá)式：/^([a-z\d._-]+)@([a-z\d-]+)\.([a-z]{2,8})(\.[a-z]{2,8})?$/；為了增加可讀性可以將每部分用"()"包起來(lái)，并不要忘記起始和結(jié)束符 ^$。

結(jié)語(yǔ)

今天關(guān)于正則表達(dá)式的普及就先到這兒，希望對(duì)大家以后寫(xiě)正則能有一點(diǎn)幫助。關(guān)于本文中沒(méi)有涉及到的知識(shí)可以參考以下鏈接：

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：看見(jiàn)就非常 > 《待分類(lèi)》

舉報(bào)/認(rèn)領(lǐng)

0條評(píng)論

發(fā)表

請(qǐng)遵守用戶評(píng)論公約

類(lèi)似文章 更多

看見(jiàn)就非常

關(guān)注對(duì)話

TA的最新館藏

李零：絕地天通——研究中國(guó)早期宗教的三個(gè)視角
黃興濤：新發(fā)現(xiàn)嚴(yán)復(fù)手批“編訂名詞館”一部原稿本
中國(guó)人文數(shù)字閱讀影響力期刊100強(qiáng)公布 | 文化縱橫網(wǎng)
！！！！！別去看愛(ài)朵露的臉--那是數(shù)據(jù)節(jié)點(diǎn)《虛擬偶像愛(ài)朵露》：瞥見(jiàn)新媒體與數(shù)字未來(lái)的“節(jié)點(diǎn)” | 機(jī)核 GCORES
伽達(dá)默爾：論圖像的緘默 | 純粹的物件和缺乏人類(lèi)印記的純粹自然現(xiàn)象在過(guò)去是不能入畫(huà)的。而今，當(dāng)我們進(jìn)入一個(gè)古典畫(huà)廊，卻正是靜物畫(huà)顯得很有現(xiàn)代感。很顯然，靜物畫(huà)并不要求像人類(lèi)或諸神的形象與作為在繪畫(huà)中出現(xiàn)
喜歡輕音樂(lè)和聆聽(tīng)更高類(lèi)型的音樂(lè)其實(shí)只是為了獲取社會(huì)聲望，在這種情況下，熟知某首熱門(mén)歌曲的文本就足以揭示出這一受到真心贊許的對(duì)象所具有的唯一功能特奧多·W.阿多諾：論音樂(lè)中的戀物特

喜歡該文的人也喜歡更多