写出更优雅、更精确的正则表达式

更新日期: 2019-06-24阅读: 1.9k标签: 正则

这次,我们将学习如何编写更优雅的模式并定义搜索字符串的位置。


定义重复的较短方法

我们知道星号 * 可以使表达式匹配 0 次或多次。这相当于{0,}。实际上还有其他更短的形式,使用它们可以使样式更优雅,更短。

一次或多个重复

使用加号 + ,我们可以表示该表达式可能匹配一次或多次。这类似于星号,但在这里必须至少匹配一次。等效于{{1,}。

/1+23/.test('123'); // true
/1+23/.test('111123'); // true
/1+23/.test('23'); // false

这意味着 /.+/ 匹配至少出现一次的任何字符。

/.+/.test(''); // false
/.*/.test(''); // true

例如检查一个字符串是否包含另一个子字符串,但是不以它结尾:

// function checks if the string contains question marks,
// but does not end with it
function hasQuestionMarkBeforeEnd(string) {
  return /\?.+/.test(string);
}
 
hasQuestionMarkBeforeEnd('Do you know regex yet?'); // false
hasQuestionMarkBeforeEnd('Do you know regex yet? Yes, I do!'); // true

请注意,问号是一个特殊字符,因此我们需要在其前面加一个反斜杠。

可以更进一步,写一个更加通用的函数

function containsPatternBeforeEnd(string, pattern) {
  return RegExp(`${pattern}.+`).test(string);
}
 
containsPatternBeforeEnd('cat, dog', 'cat'); // true
containsPatternBeforeEnd('cat, dog', 'dog'); // false

可选字符

如上所述,问号是一个特殊字符。使用它可以创建带有可选字符的模式。它相当于 {0,1}。

function wereFilesFound(string) {
  return /[1-9][0-9]* files? found/.test(string);
}
 
wereFilesFound('0 files found');  // false
wereFilesFound('No files found'); // false
wereFilesFound('1 file found');   // true
wereFilesFound('2 files found');  // true


用较短的方法定义一组可能出现的字符

以前我们使用方括号 [] 来定义一组可能出现的字符。在正则表达式中,你可以参考一些实现的集合。

字母数字字符

如果你想匹配所有字母和数字字符,则需要这样的模式:/[A-Za-z0-9_]/。相当复杂不是吗?不过,有一种更短的方法:\w。请当心:它们都不能匹配任何特定于语言的字符!

非字母数字字符

与上述模式相反:/^[A-Za-z0-9_]/。等价于 \W。它有相同的缺陷,不能处理特定于语言的字符:

function isAlphanumeric(string) {
  return /\w/.test(string);
};
 
function isNotAlphanumeric(string) {
  return /\W/.test(string);
};
 
isAlphanumeric('Ó'); // false
isNotAlphanumeric('Ó'); // true

处理数字

之前我们了解到要匹配任何数字,我们可以使用类似 [0-9] 的模式。还可以用 \d。它能够匹配任何数字:

isItADigit(string) {
  return /\d/.test(string);
}
 
isItADigit('5'); // true
isItADigit('a'); // false

在某些实现中(包括 JavaScript),\d 只表示 [0-9]。在某些情况下,它可以匹配任何 Unicode 数字字符,例如阿拉伯数字。

使用 \D 能够匹配任何非数字字符。

处理空格

在字符串中,有几种类型的空格字符:

空格 ” ”tab “/t”新行 “n”回车符 “r”

要创建一个匹配所有情况的模式,需要类似这样的复杂内容:/[\t\n\r]/。不过,有一种更简单的方法,它涉及使用 \s(小写s):

function containsWhitespace(string) {
  return /\s/.test(string);
}
 
containsWhitespace('Lorem ipsum'); // true
containsWhitespace('Lorem_ipsum'); // false

另外 \S (大写S)可以匹配任何非空白字符。


指定位置

到目前为止,只是在写单纯可以在字符串中进行匹配的模式。我们还可以指定位置使匹配更精确。

插入符号

如果在模式的开头添加 ^ 符号,则仅当被测试的字符串以该模式开头时,它才会匹配:

/^dog/.test('dog and cat'); // true
/^dog/.test('cat and dog'); // false

请注意,插入符号用在方括号中时有另外的作用,在上一篇文章中曾说过。

美元符号

在模式的末尾添加一个美元符号,仅当它出现在字符串的末尾时,才会匹配:

/dog$/.test('dog and cat'); // false
/dog$/.test('cat and dog'); // true

结合两个标志

如果你的模式以 ^ 开头,并以 $ 结尾,则仅当测试的字符串整体匹配时,它才会匹配:

/success/.test('Unsuccessful operation'); // true
/^success$/.test('Unsuccessful operation'); // false

即使在测试的字符串中可以找到字符串 “success”,将模式包含在 ^ 和 $ 中也会使它仅在整个字符串匹配时才匹配。

再看一个例子:

function areAllCharactersDigits(string) {
  return /^[0-9]+$/.test(string);
}

这个例子检查字符串是否仅包含数字。使用加号会使它匹配一位或多位数字。如果在字符串的开头到结尾之间有数字,并且没有其他内容,则将模式用 ^ 和 $ 括起来能够确保仅匹配表达式。

areAllCharactersDigits('123'); // true
areAllCharactersDigits('Digits: 123'); // false

下面的模式能够匹配第二个字符串:

/[0-9]+/.test('Digits: 123'); // true

多行模式

我们已经了解到可以将其他标志添加到模式中。其中之一是由字母 m 表示的多行标志。它改变了插入符号和美元符号的含义。在多行模式下,它们代表一行的开头和结尾,而不是整个字符串。

const pets = `
dog
cat
parrot and other birds
`;
 
/^dog$/m.test(pets); // true
/^cat$/m.test(pets); // true
/^parrot$/m.test(pets); // false

我在这里用了模板字符串添加换行符。还可以这样做:

const pets = 'dog\ncat\nparrot and other birds';
 
/^dog$/m.test(pets); // true
/^cat$/m.test(pets); // true
/^parrot$/m.test(pets); // false

由于使用了多行标志,因此是测试了多个行,而不测试了整个字符串。但是你会发现最后的测试仍然无法通过,因为最后一行包含的内容不只是“parrot”。


总结

这次,我们学习了更多的特殊字符,并通过它们用较短的形式编写更复杂的模式。现在你更加了解了匹配模式,从而进一步了解如何指定要查找的样式的位置:字符串的开头与结尾,能够写出能够匹配整个字符串或行(多行模式下)的正则表达式。

原文:https://wanago.io/2018/05/07/regex-course-part-two-writing-more-elegant-and-precise-patterns/

链接: https://fly63.com/article/detial/7005

javascript较全常用的表达正则验证,js中采用test()方法

正则表达式是一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。本文整理了JS较全且实用正则表达式。

js使用正则过滤emoji表情符号

手机端常常会遇到用户输入框,输入emoji,如果是数据库是UTF8,会遇到报错,原因是:UTF-8编码有可能是两个、三个、四个字节。Emoji表情是4个字节,而Mysql的utf8编码最多3个字节,所以数据插不进去。

一次记住js的6个正则方法

来记忆一些常用特殊字符,这个是正则本身的范畴了,是不是总觉得记不住?其实我也记不住,每次都是去搜索和online验证来完成一些任务。我也困恼过,其实最后还是因为自己写的少吧,唯手熟尔。。。

密码强度的正则表达式(JavaScript)总结

本文给出了两个密码强度的正则表达式方案,一个简单,一个更复杂和安全。并分别给出了两个方案的解析和测试程序。一般大家可以根据自己的项目的实际需要,自行定义自己的密码正则约定。

JavaScript判断字符串包含中文字符的方法总结

JS中判断一个字符串是否包含汉字,下面就介绍2中常用的实现方法:用正则表达式判断、用 Unicode 字符范围判断。

js常用正则表达式验证大全(整理详细且实用)

正则表达式对象用来规范一个规范的表达式,本文讲的是JS正则表达式大全(整理详细且实用),包括校验数字、字符、一些特殊的需求等等

javascript 正则表达式之分组与前瞻匹配详解

本文主要讲解javascript 的正则表达式中的分组匹配与前瞻匹配的,需要对正则的有基本认识。分组匹配:捕获性分组匹配、非捕获性分组匹配。前瞻匹配:正向前瞻匹配: (?=表达式) 后面一定要匹配有什么、反向前瞻匹配: (?!表达式) 后面一定不能要有什么

利用正则表达式去除所有html标签,只保留文字

后台将富文本编辑器中的内容返回到前端时如果带上了标签,这时就可以利用这种方法只保留文字。利用正则表达式去除所有html标签,只保留文字

正则表达式后行断言 • 探索 ES2018 和 ES2019

先后行断言(Lookaround Assertion)是正则表达式中的一个构造,明确了当前位置的前后字符序列,但没有其他副作用。当前 JavaScript 唯一支持的 Lookaround Assertion 是 先行断言,其匹配当前位置接下来的字符序列

循环下的正则匹配?说说正则中的lastIndex

正则有一个属性叫lastIndex,它表示正则下一次匹配时的起始位置。一般情况下我们是使用不到它的,但在正则中包含全局标志g时,正则的test和exec方法就会使用到它

点击更多...

内容以共享、参考、研究为目的,不存在任何商业目的。其版权属原作者所有,如有侵权或违规,请与小编联系!情况属实本人将予以删除!