文章导读

MySQL如何定义REGEXP_MySQL正则表达式模式匹配教程

作者 2025年9月2日 8

答案：mysql中regexp用于正则匹配，支持^、$、.、*、+、?、[]、|等元字符及{n}、{n,}、{n,m}等量词，可结合SUBSTRING、Length、INSTR等函数优化查询，但需注意默认不区分大小写、性能损耗及转义问题。

MySQL中，你可以使用

REGEXP

（或其同义词

RLIKE

）操作符来执行基于正则表达式的模式匹配。它允许你通过定义复杂的文本模式，在字符串数据中查找、筛选符合特定规则的内容，远比

LIKE

操作符功能强大。

解决方案

说起来，

REGEXP

这东西，我个人觉得是处理文本数据时一个相当趁手的工具，尤其是在

LIKE

操作符显得力不从心的时候。

LIKE

只能做简单的通配符匹配，比如

代表任意字符序列，

代表单个字符。但现实世界的数据哪有那么规整？你可能需要匹配以特定字母开头，但中间不能有某个字符，或者必须包含数字和字母的组合。这时候，

REGEXP

就登场了。

它的基本语法很简单：

column_name REGEXP 'pattern'

。这里的

pattern

就是我们定义的正则表达式。MySQL的

REGEXP

实现是基于Henry Spencer的正则表达式库，支持很多标准的元字符和量词。

举个例子，假设我们有一个用户表，里面有个

email

字段。如果我们想找出所有以

@example.com

结尾的邮箱，并且邮箱名的开头必须是字母，接着可以有数字或下划线，我们可能这么写：

SELECT email FROM users WHERE email REGEXP '^[a-zA-Z][a-zA-Z0-9_]*@example.com$';

这里面，

表示字符串的开始，

表示字符串的结束。

[a-zA-Z]

匹配一个字母，

[a-zA-Z0-9_]*

匹配零个或多个字母、数字或下划线。

@example.com

中的

是为了匹配字面上的点，因为点在正则表达式里是个特殊字符（匹配任意字符）。

我记得有一次，我在清理一个导入的数据集，里面有些地址字段格式不统一，需要找出所有包含“街”或“路”但后面跟着数字的地址。如果用

LIKE

，我可能要写好几个

OR

条件，但用

REGEXP

就简单多了：

SELECT address FROM locations WHERE address REGEXP '(街|路)[0-9]+号?';

(街|路)

匹配“街”或“路”，

[0-9]+

匹配一个或多个数字，

号?

则匹配零个或一个“号”字。你看，是不是一下子就清晰了很多？

需要注意的是，MySQL的

REGEXP

默认是大小写不敏感的，这在某些场景下很方便，但在需要严格区分大小写时，你可能需要用

BINARY

关键字或者

REGEXP BINARY

来强制区分。比如：

SELECT product_code FROM products WHERE product_code REGEXP BINARY '^[A-Z]{3}[0-9]{4}$';

这会确保只有大写字母开头的匹配成功。

MySQL REGEXP支持哪些常用正则表达式元字符和量词？

说到

REGEXP

的强大，很大一部分都来自于它丰富的元字符和量词。这些是构建复杂模式的基石，理解它们是玩转正则表达式的关键。我个人在使用时，最常用到的一些，也觉得最实用的，大致可以总结如下：

元字符（特殊字符）：

```
^
```
：匹配字符串的开始。比如
```
^abc
```
会匹配“abcde”，但不会匹配“xabc”。
```
$
```
：匹配字符串的结束。比如
```
abc$
```
会匹配“xabc”，但不会匹配“abcde”。
.
：匹配除换行符以外的任何单个字符。这是个万金油，但用的时候要小心，因为它太“贪婪”了。
```
*
```
：匹配前一个字符零次或多次。比如
```
a*
```
会匹配空字符串、”a”、”aa”、”aaa”等。
```
+
```
：匹配前一个字符一次或多次。比如
```
a+
```
会匹配”a”、”aa”、”aaa”等，但不会匹配空字符串。
```
?
```
：匹配前一个字符零次或一次。比如
```
colou?r
```
会匹配“color”和“colour”。
```
[abc]
```
：字符集，匹配方括号内的任意一个字符。比如
```
[aeiou]
```
匹配任何一个小写元音字母。
```
[a-z]
```
：范围字符集，匹配指定范围内的任意一个字符。比如
```
[0-9]
```
匹配任何一个数字。
```
[^abc]
```
：否定字符集，匹配除方括号内字符以外的任何一个字符。比如
```
[^0-9]
```
匹配任何非数字字符。
```
|
```
：或操作符，匹配
```
|
```
两边的任意一个表达式。比如
```
cat|dog
```
匹配“cat”或“dog”。
：转义字符。当你想匹配一个元字符本身时，比如
.
、
```
*
```
、
```
?
```
等，就需要用
进行转义。
```
.
```
匹配字面上的点。

量词（表示重复次数）：

```
{n}
```
：匹配前一个字符恰好
```
n
```
次。比如
```
a{3}
```
匹配“aaa”。
```
{n,}
```
：匹配前一个字符至少
```
n
```
次。比如
```
a{2,}
```
匹配“aa”、“aaa”等。
```
{n,m}
```
：匹配前一个字符至少
```
n
```
次，但不超过
```
m
```
次。比如
```
a{1,3}
```
匹配“a”、“aa”、“aaa”。

我经常会用

[0-9]{3}-[0-9]{4}

来匹配电话号码中的一部分，或者用

[A-Z]{2}d{4}

来验证某个产品编号格式。这些组合起来，就能构建出非常精细的匹配规则。但也要注意，正则表达式写得太复杂，有时会影响性能，或者变得难以阅读和维护。所以，在追求精确匹配的同时，也要权衡可读性和效率。

在MySQL中使用REGEXP时，有哪些常见的陷阱或性能考量？

嗯，

REGEXP

虽然强大，但用起来也不是没有坑的。我个人在实践中遇到过一些问题，也总结了一些经验，觉得有必要跟大家分享一下。

1. 性能问题： 这是最常见也最让人头疼的问题。

REGEXP

操作符通常不会使用索引，这意味着每次查询都可能需要全表扫描。如果你的表数据量很大，并且你在一个非索引字段上频繁使用

REGEXP

，那查询速度会慢得让人抓狂。

我的建议： 尽量避免在大型表的非索引字段上直接使用
REGEXP
。如果可能，先用
LIKE
做粗略筛选，缩小数据集，再对结果集使用
REGEXP
进行精细匹配。或者，考虑在数据导入时就进行预处理，将需要
REGEXP
匹配的特征提取出来，存储到单独的字段中，并对该字段建立索引。比如，如果你经常需要匹配某个地址中是否包含“某区”，可以增加一个
```
has_district_x
```
的布尔字段。
另一个场景： 我曾经尝试用
REGEXP
来验证输入数据的合法性，结果发现验证过程拖慢了整个批处理。后来我把正则验证逻辑移到了应用程序层面，只在数据库中存储已经验证过的数据，性能立刻就上来了。数据库更擅长数据的存储和检索，复杂的文本处理逻辑有时放在应用层更合适。

2. 默认行为的理解：

大小写不敏感： 前面提过，MySQL的
REGEXP
默认是大小写不敏感的。这在很多情况下是好事，但如果你需要精确匹配大小写，一定要记得用
```
REGEXP BINARY
```
。我以前就因为忘了加
```
BINARY
```
，导致匹配结果比预期多了一大堆，排查了好久才发现是这个原因。
换行符匹配： 默认情况下，
.
不匹配换行符。如果你需要匹配包含换行符的整个字符串，这可能会有点麻烦。MySQL的
REGEXP
不像一些其他正则引擎那样提供
```
s
```
（dotall）模式修饰符。你可能需要通过
```
[sS]
```
（匹配所有空白和非空白字符，也就是所有字符）这样的方式来模拟。

3. 正则表达式的复杂性与可读性： 写得越复杂的正则表达式，就越难理解和维护。有时候，一个看起来很“聪明”的正则，可能只有你自己能看懂，或者过一段时间连你自己都忘了它是干嘛的。

我的心得： 尽量保持正则表达式的简洁性。如果一个模式变得异常复杂，考虑是否可以拆分成多个简单的
REGEXP
条件，或者通过其他SQL函数（如
```
SUBSTRING
```
、
```
INSTR
```
）与
REGEXP
结合使用。注释你的正则表达式，或者在文档中详细说明其意图，这对于团队协作和长期维护至关重要。

4. 转义字符的坑： 很多特殊字符在正则表达式中都有其含义，比如

、

。如果你想匹配这些字符本身，就必须用

进行转义。我一开始就经常忘记转义点号，导致匹配结果天差地别。记住，当你不确定一个字符是否有特殊含义时，保守的做法是先转义。

这些都是我个人在实际使用

REGEXP

时的一些切身体会。掌握这些，能让你在享受

REGEXP

带来的便利时，少走很多弯路。

如何结合其他SQL函数优化REGEXP查询？

嗯，光靠

REGEXP

单打独斗，在某些复杂场景下确实会显得力不从心，或者效率不高。我发现，真正能发挥

REGEXP

最大效用的，往往是把它和其他SQL函数结合起来用。这就像是给你的工具箱里多添了几件趁手的工具，让你的工作流程更加灵活。

SUBSTRING

或

LEFT

/

RIGHT

结合

REGEXP

：有时候我们并不需要对整个字段进行正则匹配，而只是想匹配字段的某个特定部分。比如，我们有一个长文本字段，只想检查它开头的几个字符是否符合某个模式。这时候，先用

SUBSTRING

截取一部分，再对这部分进行

REGEXP

匹配，效率会高很多。

-- 假设我们只想检查一个非常长的描述字段的前100个字符是否包含某个敏感词模式 SELECT id, description FROM articles WHERE SUBSTRING(description, 1, 100) REGEXP '敏感词模式';

这样数据库就不用把整个

description

字段都送去正则引擎处理了，只处理前面一小段，尤其在

description

字段很长时，效果立竿见影。

LENGTH

或

CHAR_LENGTH

结合

REGEXP

：在某些情况下，我们可能需要根据字符串的长度来辅助判断。例如，我们想找出所有长度在5到10之间，并且包含数字的字符串。

SELECT code FROM products WHERE CHAR_LENGTH(code) BETWEEN 5 AND 10 AND code REGEXP '[0-9]';

这里，

CHAR_LENGTH

可以帮助我们快速筛选掉不符合长度要求的记录，减少

REGEXP

的执行次数。

INSTR

或

LOCATE

结合

REGEXP

：如果你的目标是查找某个子字符串是否存在，并且

评论（已关闭）

评论已关闭

Hello! 欢迎来到悠悠畅享网！