机器学习与数据科学-专题1 Python正则表达式-【正则表达式入门-1】

本文介绍: 这里我们可以发现 a 和 b 匹配的是 na，字符 a 因为不是 e 所以可以被匹配，而变量 c 的值为空，在这里正则表达式引擎只匹配到了字符串 n 的位置，而 n 之后没有任何可以匹配 [^e] 的字符了，所以这里也匹配失败。有一些常见的字符组非常大，比如，我们要匹配的是任意数字，如果依照上述代码，每次我们都需要使用 [0123456789] 这种方式明显很不明智，而如果要匹配从 a-z 的字母，我们也这样编写代码的话，肯定会让我们崩溃。听起来比较复杂，实际非常简单，下面开始体验最简单的正则表达式。

文章目录

第一关
第二关
第三关

第一关

任务要求

本关任务：学会导入 python 的正则表达式库，使用该库方法的 search 方法编写一个匹配小程序。该方法能查看某个学生名字是否在此学生信息中。

根据提示，具体任务如下：

导入相关包；
查看此信息是不是张明的信息，查找结果存储在 is_zhangming 变量中。

补充完代码后，点击测评，平台会对你编写的代码进行测试，当你的结果与预期输出一致时，即为通过。

测试输入：张伟 86-14870293148；
预期输出：
None

测试输入：张明；
预期输出：
（0，2）

代码

# coding=utf-8
import re
# 在此导入python正则库

check_name = input()
# 在此使用正则匹配'张明'的信息，结果存储到is_zhangming中
########## Begin ##########
is_zhangming=re.search(r"张明",check_name)
########## End ##########

if is_zhangming is not None:
    print(is_zhangming.span())
else:
    print(is_zhangming)

第二关

任务要求

本关任务：运用正则表达式的字符组表示方法，编写一个能从文本中快速匹配到 python 和 Python 的小程序。
编程要求
根据提示，在右侧编辑器 Begin-End 部分补充代码，具体任务如下：

从文本中快速匹配到 python 和 Python 的小程序，输出匹配到的所有内容。
测试说明
补充完代码后，点击测评，平台会对你编写的代码进行测试，当你的结果与预期输出一致时，即为通过。

测试输入：I LIKE Python3 and i like python2.7；
预期输出：
[Python, python]

代码

# coding=utf-8

import re

input_str = input()

# 编写获取python和Python的正则，并存储到match_python变量中

########## Begin ##########
match_python=re.findall(r"[Pp]ython",input_str)

########## End ##########

print(match_python)

第三关

相关知识

为了完成本关任务，你需要掌握：

区间；
区间取反。
本关来学习正则表达式区间与区间取反的相关知识。

区间
有一些常见的字符组非常大，比如，我们要匹配的是任意数字，如果依照上述代码，每次我们都需要使用 [0123456789] 这种方式明显很不明智，而如果要匹配从 a-z 的字母，我们也这样编写代码的话，肯定会让我们崩溃。

为了适应这一点，正则表达式引擎在字符组中使用连字符(-)代表区间，所以我们匹配任意数字可以使用 [0-9]，所以如果我们想要匹配所有小写字母，可以写成 [a-z]，想要匹配所有大写字母可以写成 [A-Z]。

可能我们还有个需求：匹配连字符。因为-会被正则表达式引擎理解为代表连接区间，所以这个时候我们需要对-进行转义。

示例：


a = re.findall(r'[0-9]','xxx007abc')
b = re.findall(r'[a-z]','abc001ABC')
c = re.findall(r'[A-Za-z0-9]','abc007ABC')
d = re.findall(r'[0-9-]','0edu 007-edu')
print(a)
print(b)
print(c)
print(d)
执行结果如下：

['0', '0', '7']
['a', 'b', 'c']
['a', 'b', 'c', '0', '0', '7', 'A', 'B', 'C']
['0', '0', '0', '7', '-']

区间取反
到目前为止，我们定义的字符组都是由可能出现的字符定义，不过有时候我们可能希望根据不会出现的字符定义字符组，例如：匹配不包含数字的字符组。


a = re.findall(r'[^0-9]','xxx007abc')
b = re.search(r'[^0-9]','xxx007abc')
print(a)
print(b)
执行结果如下：

['x', 'x', 'x', 'a', 'b', 'c']
<re.Match object; span=(0, 1), match='x'>

可以通过在字符数组开头使用 ^ 字符实现取反操作，从而可以反转一个字符组（意味着会匹配任何指定字符之外的所有字符）。

接下来再看一个表达式：n[^e] 这意味着字符 n 接下来的字符是除了 e 之外所有的字符。


a = re.findall(r'n[^e]','final')
b = re.search(r'n[^e]','final')
c = re.findall('r[n[^e]]','Python')
print(a)
print(b)
print(c)
执行结果如下：

['na']
<re.Match object; span=(2, 4), match='na'>
[]

这里我们可以发现 a 和 b 匹配的是 na，字符 a 因为不是 e 所以可以被匹配，而变量 c 的值为空，在这里正则表达式引擎只匹配到了字符串 n 的位置，而 n 之后没有任何可以匹配 [^e] 的字符了，所以这里也匹配失败。

注意

search是找到第一个匹配的地方，而findall是所有匹配的地方

任务描述

本关任务：运用正则表达式的区间表示方法，编写一个能从文本中快速匹配到数字与不是数字字符的小程序。

编程要求
请仔细阅读右侧代码，根据提示，在右侧编辑器 Begin-End 部分补充代码，具体任务如下：

匹配数字字符信息；

匹配不是数字字符的信息。

测试说明
补充完代码后，点击测评，平台会对你编写的代码进行测试，当你的结果与预期输出一致时，即为通过。

测试输入：Python3 and python2.7；
预期输出：
[‘3’, ‘2’, ‘7’]
[‘P’, ‘y’, ‘t’, ‘h’, ‘o’, ‘n’, ’ ‘, ‘a’, ‘n’, ‘d’, ’ ‘, ‘p’, ‘y’, ‘t’, ‘h’, ‘o’, ‘n’, ‘.’]

代码

# coding=utf-8

import re

input_str = input()

# 1、编写获取到数字的正则，并输出匹配到的信息
########## Begin #re#########
a=re.findall(r"[0-9]",input_str)
########## End ##########
print(a)
# 2、编写获取到不是数字的正则，并输出匹配到的信息
########## Begin ##########
b=re.findall(r"[^0-9]",input_str)
########## End ##########
print(b)