[Linux] 正则表达式及grep和awk

本文介绍: 正则表达式是一种用于匹配和操作文本的强大工具，它是由一系列字符和特殊字符组成的模式，用于描述要匹配的文本模式。正则表达式可以在文本中查找、替换、提取和验证特定的模式。正则表达式和通配符的区别正则表达式：匹配文章中的字符通配符：匹配的是文件名AWK 是一款出色的文本处理工具。它是可用于任何环境（不仅仅是 Linux）的最强大的数据处理引擎之一。

一、正则 表达式

1.1 什么是正则表达式

正则表达式是一种用于匹配和操作文本的强大工具，它是由一系列字符和特殊字符组成的模式，用于描述要匹配的文本模式。正则表达式可以在文本中查找、替换、提取和验证特定的模式。

正则表达式和通配符的区别

正则表达式：匹配文章中的字符

通配符：匹配的是文件名

1.2 元字符

代表字符
符号	作用
.	代表任意字符
[]	代表单个字符
[^]	代表指定范围外的任意单个字符
[:s p ace:]	包括空格，制表符（tab键）
[:alnum:]	代表字母和数字
[:alpha:]	代表任意大小写英文字母

[a-z]

[^li]

[[:s p ace:]]

[[:alnum:]]和[[:alpha:]]

1.3 表示次数

符号	作用
*	0——正无穷次
.*	任意长度的任意字符，不包括0次
?	可有可无，代表一次或0次
+	1——正无穷
{n}	前面的字符出现了n次
{n,m}	前面的字符出现了n-m次
{3,}	前面的字符出现了最少3次
{,5}	前面的字符出现了最多5次

实际应用：

{n}前面的字符出现了n次

{3,}前面的字符出现了最少3次

{n,m}前面的字符出现了n-m次

*0——正无穷次

.* 任意长度的任意字符，不包括0次

? 可有可无，代表一次或0次

+ 可有可无，代表一次到正无穷次

{,3}前面的字符出现了最多3次

1.4 位置锚定

符号	作用
^$	空行
^[[:s p ace:]]*$	空白行
<或b	字符的开头
&g t;或b	字符的结尾

实际应用：

过滤出不是以#号开头的行

过滤出”root“这个字符

<或b 字符的开头

1.5 分组或其他

分组用括号将需要组合的字符括起来

实际应用：

分组匹配abc

匹配1abc或2abc

使用分组匹配出ip 地址

1.6 扩展正则表达式

grep -E或e grep

表示次数
符号	作用
*	匹配前面字符任意次
?	0或1次
+	1次或多次
{n}	匹配n次
{m,n}	至少m，至多n次
{,n}	匹配前面的字符至多n次,<=n，n可以为0
{n,}	匹配前面的字符至少n次,<=n，n可以为0

表示分组
符号	作用
()	分组
\|	或者
a\|b	a或b
C\|cat	C或cat
(C\|c)a t	Cat或cat

练习：

1.表示邮箱

2.表示qq号

3.表示手机号码

二、grep

格式：
grep [选项]… 查找条件 目标文件

选项：
-color=auto 对匹配到的文本着色显示
-m  # 匹配#次后停止
grep -m 1 root /etc/passwd   #多个匹配只取第一个
-v 显示不被pattern匹配到的行,即取反
grep -Ev '^[[:space:]]*#|^$' /etc/fstab
-i 忽略字符大小写
-n 显示匹配的行号
-c 统计匹配的行数
grep -c root /etc/passwd    #统计匹配到的行数
-o 仅显示匹配到的字符串
-q 静默模式，不输出任何信息
-A # after, 后#行 
grep -A3 root /etc/passwd   #匹配到的行后3行业显示出来
-B # before, 前#行
-C # context, 前后各#行
-e 实现多个选项间的逻辑or关系,如：grep –e ‘cat ' -e ‘dog' file
grep -e root -e bash /etc/passwd #包含root或者包含bash 的行
grep -E root|bash  /etc/passwd
-w 匹配整个单词
grep -w root /etc/passwd
useradd rooter
-E 使用ERE，相当于egrep
-F 不支持正则表达式，相当于fgrep
-f   file 根据模式文件，处理两个文件相同内容 把第一个文件作为匹配条件
-r   递归目录，但不处理软链接
-R   递归目录，但处理软链接

实际应用

过滤非空行

过滤以root开头的行

过滤以bash结尾的行

统计当前主机的连接状态

统计当前连接主机数

三、awk

3.1 什么是awk

AWK 是一款出色的文本处理工具。它是可用于任何环境（不仅仅是 Linux）的最强大的数据处理引擎之一。这种编程和数据处理语言（以其创始人 Alfred Aho、Peter Weinberger 和 Br ian Kernighan 的姓氏首字母命名）只会随着知识的积累而变得更好，AWK 提供了强大的功能：样式加载和流式处理、数学运算符、流程控制语句，甚至内置变量和函数。AWK 可以进行样式加载、流式处理、数学运算符、过程控制语句，甚至内置变量和函数。AWK 几乎拥有完整语言的所有强大功能。事实上，AWK 拥有自己的语言：AWK 编程语言被其三位创建者正式定义为 “样式扫描和处理语言”。可以创建无数的简短程序来读取输入文件、排序数据、处理数据、对输入进行计算、生成报告等。

3.2 awk的工作 原理

逐行读取文本，默认以空格或tab键为分隔符进行分隔，将分隔所得的各个字段保存到内建变量中，并按模式或者条件执行编辑命令。

通常awk是将一行数据拆分为多个字段，操作者，可以选取指定的字段对其进行高效率的操作

3.3 awk的基础用法

3.3.1 基本打印用法

格式：
awk 选项 '表达式{处理动作}'

常用选项
符号	作用
-F	指定分隔符
-v	指定变量

实际应用：

再打印一遍

运算

先处理BEGIN 中的式子

连续的空白符

取分区利用率和IP地址

3.4 awk 常见的内置 变量

内置变量	作用
$0	当前处理的行的整行内容
$n	当前处理行的第n个字段（第n列）
NR	当前处理的行的行号（序数）
NF	当前处理的行的字段个数。$NF代表最后一个字段
FS	列分割符。指定每行文本的字段分隔符，默认为空格或制表位。与”-F”作用相同
OFS	输出内容的列分隔符
FILENAME	被处理的文件名
RS	行分隔符。awk从文件中读取资料时，将根据RS的定义把资料切割成许多条记录，而awk一次仅读入一条记录进行处理。预设值是”n”

3.5 自定义 变量

root CXK /opt] awk -v test='hello' 'BEGIN{print test}'
hello
[root CXK /opt]

3.6 打印 行内容及其行号

awk '{print NR}' test.txt

awk '{print NR,$0}' test.txt

3.6.1 指定行和指定行范围 打印

awk 'NR==3{print}' test.txt 
 
awk 'NR==3,NR==5{print}' test.txt 
 
awk '(NR>=3)&amp;&amp;(NR<=5){print}' test.txt

3.6.2 奇偶行打印

awk 'NR%2==0{print}' test.txt 
 
awk 'NR%2==1{print}' test.txt

3.6.3 文本内容匹配过滤打印

awk '/^root/{print}' /etc/passwd
awk '/bash$/{print}' /etc/passwd

3.7 BEGIN END

BEGIN{}：仅在开始处理文件中的文本之前执行一次

END{}：仅在文本处理完成之后执行一次

应用：

3.8 条件 判断打印

正向判断打印：

awk -F: '$3>500{print $0}' /etc/passwd

判断取反打印：

awk -F: '!($3>10){print $0}' /etc/passwd

此之外，甚至可以直接进行if语句判断打印：

awk -F: '{if($3>500){print $0}}' /etc/passwd

3.9 for

计算

3.10 awk结合 数组运用

3.10.1 awk中定义数组打印

awk 'BEGIN{a[0]=10 ; a[1]=20 ; a[2]=30;print a[1]} '
 
awk 'BEGIN{a[0]=10 ; a[1]=20 ; a[2]=30;print a[0]} '
 
awk 'BEGIN{a[0]=10 ; a[1]=20 ; a[2]=30;print a[2]} '

此外：awk中的数组还能形成遍历

awk 'BEGIN{a[0]=10 ; a[1]=20 ; a[2]=30;for(i in a)print i,a[i]} '
                定义数组及其元素           变量i读取数组a的下标   输出数组下标及其相对应的元素

3.10.2awk打印文件内容去重统计

去重打印数组

echo ${arry[@]}|awk -v RS=' '  '!a[$1]++'
                      指定分隔符为空格   筛选掉重复的元素
 
awk -v RS=' '  '!a[$1]++' <<< ${arry[@]}
                             表达式中重定向输入将右边的数组作为左边表达式子的处理对象

处理文件去重统计

awk '{a[$1]++};END{for(i in a){print i,a[i]}}' test.txt

题目：统计 ssh 登录失败的用户及其登录失败（日志：/var/log/secure中有记录）的次数（通常我们会认为失败三次，存在着暴力破解登录的可能，意味该主机存在隐患）解决方案：将其筛选出来就把IP加入到黑名单中 /etc/hosts.deny。

awk筛选统计：

awk '/Failed password/{a[$11]++};END{for(i in a){print i,a[i]}}' /var/log/secure

其他方式：

awk '/Failed password/{print $11}' /var/log/secure |sort -n 
awk '/Failed password/{print $11}' /var/log/secure |sort -n |uniq -c

一些题目：

提取字段中的 IP地址和时间

awk '{print $1, $4}' log.txt

提取某一时间段的日志

cat access_log |awk '/2018:11:56:43/,/2018:11:56:44/{print $0}'

提取 host.txt主机名后再放回host.txt文件

awk '{print $2}' host.txt >> host.txt
cat host.txt|awk '{print $2}'|awk -F'.' '{print $1}' >> host.txt 

cat host.txt|awk -F '[ .]'  '{print $2}'

统计/etc/fs tab文件中每个文件系统类型出现的次数

cat /etc/fstab |awk '{print $3}'|grep -v "^#"|grep -v "^$"|tail -n +4|sort|uniq -c

统计/etc/fs tab文件中每个真单词出现的次数

grep -o -w -E 'b[[:alpha:]]+b' /etc/fstab | sort | uniq -c

提取出字符串Yd$C@M05MB%9&Bd h7dq+YVixp3vpw中的所有数字

echo "Yd$C@M05MB%9&amp;Bdh7dq+YVixp3vpw" | grep -o -E '[0-9]+'

查出/tmp/的权限，以数字方式显示

stat -c %a /tmp/
stat /tmp/|sed -nr '4s/.*((.*)/.*)  Uid.*/1/p'

查出用户UID最大值的用户名、UID及shell 类型

awk -F: '{print $1, $3, $7}' /etc/passwd | sort -t" " -k2 -n | tail -n 1

总结：

1. awk是一种对文件输出内容的字段（列），进行操作的工具，多数用来提取重要数据

2. awk 结合数组时可以进行数组定义，数组遍历，以及数组元素的去重统计

3.提取文件数据时，注意每行或列的分隔符，正确借用分隔符能够使提取的数据更加精确

原文地址:https://blog.csdn.net/Cnm_147258/article/de tails/134647825

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

如若转载，请注明出处：http://www.7code.cn/show_20462.html

如若内容造成侵权/违法违规/事实不符，请联系代码007邮箱：suwngjj01@126.com进行投诉反馈，一经查实，立即删除！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

匹配文本正则表达式

一、正则表达式

1.1 什么是正则表达式

1.2 元字符

1.3 表示次数

1.4 位置锚定

1.5 分组或其他

1.6 扩展正则表达式

练习：

二、grep

三、awk

3.1 什么是awk

3.2 awk的工作原理

3.3 awk的基础用法

3.4 awk 常见的内置变量

3.5 自定义变量

3.6 打印行内容及其行号

3.6.1 指定行和指定行范围打印

3.6.2 奇偶行打印

3.6.3 文本内容匹配过滤打印

3.7 BEGIN END

3.8 条件判断打印

3.9 for

3.10 awk结合数组运用

3.10.1 awk中定义数组打印

3.10.2awk打印文件内容去重统计

一些题目：

总结：

相关文章

发表回复 取消回复

发表回复取消回复