正则表达式和awk

[:alnum:] 字母和数字
[:alpha:] 代表任何英文大小写字符，亦即 A-Z, a-z
[:lowe r:] 小写字母,示例:[[:lowe r:]],相当于[a-z]
[:up pe r:] 大写字母
[:blank:] 空白字符（空格和制表符）
[:s p ace:] 包括空格、制表符(水平和垂直)、换行符、回车符等各种类型的空白,比[:blank:]包含的范围广
[:cnt rl:] 不可打印的控制字符（退格、删除、警铃…）
[:dig i t:] 十进制数字
[:x dig i t:]十六进制数字
[:graph:] 可打印的非空白字符
[:print:] 可打印字符
[:punct:] 标点符号
w #匹配单词构成部分，等价于[_[:alnum:]]
W #匹配非单词构成部分，等价于[^_[:a lnum:]]
S #匹配任何非空白字符。等价于 [^ fnrt v]。
s #匹配任何空白字符，包括空格、制表符、换页符等等,等价于 [ fnrtv]。注意
Uni code 正则表达式会匹配全角空格符

元字符点（.）

[root@local host ~]# ls /etc/|grep rc[.0-6]
rc0.d
rc1.d
rc2.d
rc3.d
rc4.d
rc5.d
rc6.d
rc.d
rc.local
[root@local host ~]# ls /etc/|grep ‘r c.’ #点需要加转义字符
 r c.d
r c.local
[root@local host ~]# grep r..t /etc/passwd #r..t ..代表任意两个字符
 root:x:0:0:ro o t:/ro ot:/bin/bash
op e r ator:x:11:0:op erator:/root:/s bin/no login
ftp:x:14:50:FTP User:/var/ftp:/sbin/no login
[root@local host ~]# echo abc |g re p a.c
abc
[root@loc alhost ~]# echo abc |g re p a.c #这里需要加引号和转义字符
 abc
[root@localhost ~]# echo abc |g re p “a.c”
[root@localh ost ~]#

[root@lo calh ost sy]# gre p [[:sp ace:]] lc.txt
sjs
os k
sk m smod
[root@lo calhost sy]# gre p [[:sp ace:]] lc.txt|cat -A #过滤空行并查看
sjs $
osk$
sk m smod$

5.表示次数

* #匹配前面的字符任意次，包括0次
.* #任意长度的任意字符,不包括0次
? #匹配其前面的字符出现0次或1次,即:可有可无
+ #匹配其前面的字符出现最少1次,即:肯定有且 >=1 次
{n} #匹配前面的字符n次
{m,n} #匹配前面的字符至少m次，至多n次
{,n} #匹配前面的字符至多n次,<=n
{n,} #匹配前面的字符至少n次

[root@lo calhost sy]# echo google |grep ‘go{2}gle’ #{2}代表前面的o出现2次
google
[root@lo calhost sy]# echo goooogle |grep ‘go{2,}gle’ #{2,}代表前面的o出现2次以上
goooogle
[root@lo calhost sy]# echo gooooogle |grep ‘go{2,5}gle’ #{2,5}代表前面的o出现2到5次
gooooogle
[root@lo calhost sy]# echo gooooooogle |grep ‘go*gle’ #*代表前面的o出现0到任意次
gooooooogle
[root@localhost sy]# echo google |grep ‘go*gle’
google
[root@localhost sy]# echo ggle |grep ‘go*gle’
ggle
[root@localhost sy]# echo gjevfnsjkg bgle |grep ‘g.*gle’ #.*代表任意匹配所有
gjevfnsjkg bgle
[root@localhost sy]# echo gjgle |grep ‘g.*gle’
gjgle
[root@localhost sy]# echo ggle |grep ‘g?gle’ #?代表一次或者0次
ggle
[root@localhost sy]# echo gooogle |grep ‘go+gle’ #+代表一个以上
gooogle

6.位置锚定

^ 代表开头

$ 代表结尾

<和b 代表字符串的开头，用于单词模式的左侧(连续的数字，字母，下划线都算单词内部)

>和b 代表字符串的结尾，用于单词模式的右侧

<单词> 匹配整个单词

[root@localhost sy]# grep “^[^#]” /etc/fs tab #过滤出不是#号开头的行
/dev/mapper/centos-root / x fs defaults 0 0
UUID=c691f6ac-d1a0-46ad-b02b-7c6256963e6b /boot x fs defaults 0 0
/dev/mapper/centos–home /home x fs defaults 0 0
/dev/mapper/centos–sw ap sw ap sw ap defaults 0 0
[root@localhost sy]# vim lc.txt
[root@localhost sy]# grep “^google$” lc.txt #只过滤google
google
[root@localhost sy]# grep “^[[:space:]]*$” /etc/fs tab #只匹配空白行

[root@localhost sy]# echo hello-123 |grep “<123” #只匹配123
hello-123
[root@localhost sy]# echo hello 123 |grep “<123”
hello 123
[root@localhost sy]#

7.分组或其他

分组：使用( ) 将多个字符捆绑在一起，当作一个整体处理，如(root)+

后向引用：分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中，这些变量的命名

方式为: 1, 2, 3, …

1 表示从左侧起第一个左括号以及与之匹配右括号之间的模式所匹配到的字符

|：代表或者

[root@localhost sy]# echo abccc |grep “abc{3}”
abccc
[root@localhost sy]# echo abcabcabc |grep “(abc){3}”
abcabcabc
[root@localhost sy]# echo 1abc |grep “1|2abc”
1abc
[root@localhost sy]# echo 1abc |grep “(1|2)abc”
1abc
[root@localhost sy]# echo 2abc |grep “(1|2)abc”
2abc

ifconfig ens33 |grep net mask|grep -Eo ‘([0-9]{1,3}.){4}’
172.16.114.10
255.255.255.0
172.16.114.255

8.扩展正则表达式

grep -E

1.表示次数

* 匹配前面字符任意次
? 0或1次
+ 1次或多次
{n} 匹配n次
{m,n} 至少m，至多n次
{,n} #匹配前面的字符至多n次,<=n，n可以为0
{n,} #匹配前面的字符至少n次,<=n，n可以为0

2.表示分组

() 分组
分组：() 将多个字符捆绑在一起，当作一个整体处理，如：(root)+
后向引用：1, 2, …
| 或者
a|b #a或b
C|cat #C或cat
(C|c)at #Cat或cat

3.练习：

表示qq号

[root@localhost ~]# echo “940132245” |grep “b[0-9]{6,12}b”
940132245

表示邮箱

echo “zhou@qq.com” |grep -E “[[:alnum:]_]+@[[:alnum:]_]+.[[:alnum:]_]+”
zhou@qq.com

表示手机号

echo “13703296734”|grep -E “b1[3456789][0-9]{9}b”
13703296734

二、awk

1.语法

awk [选项] ‘表达式 {处理动作}’

表达式：找到特定的行

处理动作：print 打印 printf 打印

2.选项

-F 指定分隔符

-v 指定变量

-f 脚本

3.基础用法

[root@localhost ~]# awk ‘{print}’
^C
[root@localhost ~]# awk ‘{print}’
dd
dd
dd
dd
^C
[root@localhost ~]# awk ‘{print “hello“}’
1
hello
1
hello
1
hello
^C
[root@localhost ~]# awk ‘BEGIN {pr int 100*20}’
2000

awk -F: ‘BEGIN {pr int “hello“} {pr int $1}’ /etc/passwd |head -n3  #先处理BEGIN 中的式子
hello
root
bin

[root@localhost ~]# echo {a..b} |awk ‘{print $1}’
a
[root@localhost ~]# df|awk ‘{print $5}’
已用%
12%
0%
0%
1%
0%
18%
1%
1%
0%

[root@localhost ~]# cat /etc/passwd|awk -F: ‘{print $1″t”$3}’|head -n2
root   0
bin   1

df |awk -F”( +|%)” ‘{print $5}’
已用
12
0
0
1
0
18
1
1
0

ifconfig ens33|grep netmask |awk ‘{print $2}’ #提前IP地址
172.16.114.10

4.内置 变量

awk 选项 ‘模式{print }’

1.FS :指定每行文本的字段分隔符，缺省为空格或制表符（tab）。与 “-F”作用相同 -v “FS=:”

2.OFS：输出时的分隔符

3.NF：当前处理的行的字段个数

4.NR：当前处理的行的行号（序数）

5.$0：当前处理的行的整行内容

6.$n：当前处理行的第n个字段（第n列）

7.FILENAME:被处理的文件名

8.RS：行分隔符。awk从文件上读取资料时，将根据RS的定义就把资料切割成许多条记录，而awk一次仅读入一条记录进行处理。预设值是n

BEGIN{}：仅在开始处理文件中的文本之前执行一次

END{}：仅在文本处理完成之后执行一次

[root@localhost ~]# awk -v FS=’:’ ‘{print $1FS$3}’ /etc/passwd |head -n3
root:0
bin:1
daemon:2
[root@localhost ~]# awk -F: ‘{print $1″:”$3}’ /etc/passwd |head -n2
root:0
bin:1
[root@localhost ~]# fs=”:”;awk -v FS=$fs ‘{print $1FS$3}’ /etc/passwd |head -n3
root:0
bin:1
daemon:2
#如果-F -FS一起使用 -F的优先级高

[root@localhost ~]# echo $PATH |awk -v RS=’:’ ‘{print $0}’
/usr/local/sbin
/usr/local/bin
/usr/sbin
/usr/bin
/root/bin

awk -F: ‘{print NF}’ /etc/passwd #代表字段的个数
7
7
[root@localhost ~]# awk -F: ‘{print $NF}’ /etc/passwd  #$NF最后一个字段
/bin/bash
/sbin/no login
/sbin/no login

[root@localhost ~]# df |awk -F “[ %]+” ‘{print $(NF-1)}’  #倒数第二行
已用
12
0
0
1
0
18
1
1
0

[root@localhost ~]# awk ‘NR==2{print $1}’ /etc/passwd #只取第二行的第一个字段
bin:x:1:1:bin:/bin:/sbin/no login
[root@localhost ~]# awk ‘NR==1,NR==3{print $1}’ /etc/passwd  #打印出1到3 行的第一个字段
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/no login
daemon:x:2:2:daemon:/sbin:/sbin/nologin

awk ‘NR==1||NR==3{print $1}’ /etc/passwd #打印出1和3行
root:x:0:0:root:/root:/bin/bash
daemon:x:2:2:daemon:/sbin:/sbin/nologin

[root@localhost ~]# awk ‘(NR%2)==0{print NR}’ /etc/passwd  #打印出函数取余数为0行
2
4
6
[root@localhost ~]# awk ‘(NR%2)==1{print NR}’ /etc/passwd  #打印出函数取余数为1的行
1
3
5
[root@localhost ~]# awk ‘NR>=3 && NR<=6{print NR,$0}’ /etc/passwd
3 daemon:x:2:2:daemon:/sbin:/sbin/nologin
4 adm:x:3:4:adm:/var/adm:/sbin/nologin
5 lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
6 sync:x:5:0:sync:/sbin:/bin/sync

awk -F: ‘$3>1000{print}’ /etc/passwd
nfsnobody:x:65534:65534:Anonymous NFS User:/var/lib/nfs:/sbin/nologin  #打印出普通用户过滤第三列大于1000 的行

awk ‘/^UUID/{print $1}’ /etc/fs tab
UUID=c691f6ac-d1a0-46ad-b02b-7c6256963e6b

5.条件 判断

awk -F: ‘{if($3>1000)print $1,$3}’ /etc/passwd
nfsnobody 65534
[root@localhost ~]# awk -F: ‘{if($3>1000){print $1,$3}else{print $3}}’ /etc/passwd
0
1
2
3
4
5
6
7
8
11
12
14
99
192
81
999

6.数组

awk数组特性：

1.awk的数组是关联数组(即key/value 方式的hash 数据结构)，索引下标可为数值(甚至是负数、小数等)，也可为字符串 1. 在内部，awk数组的索引全都是字符串，即使是数值索引在使用时内部也会转换成字符串 2. awk的数组元素的顺序和元素插入时的顺序很可能是不相同的

2.awk数组支持数组的数组

awk ‘BEGIN{a[1]=”lc”;print a[1]}’
lc
[root@localhost ~]# awk ‘BEGIN{weekdays[“mon”]=”Monday“;weekdays[“tue“]=”Tues day“;print weekdays[“mon”]}’
Monday

awk ‘BEGIN{a[1]=1;a[2]=2;print length(a);print length(“hello”)}’ #可以查看数组长度
2
5

去除重复行

cat b.txt
abc
hlj
lsdn
abc
hlj
njds
lksam nf
kfd
[root@localhost sy]# awk ‘{a[$1]++}END{for (i in a){print i}}’ b.txt
lksam nf
njds
hlj
abc
kfd
lsdn

提取下面的字段中的 IP地址和时间

awk
58.87.87.99 – – [09/Jun/2020:03:42:43 +0800] “POST /wp-cron.php?doing_wp_cron=1591645363.2316548824310302734375 HTTP/1.1″ “”send fileon
128.14.209.154 – – [09/Jun/2020:03:42:43 +0800] “GET / HTTP/1.1” “”send fileon
64.90.40.100 – – [09/Jun/2020:03:43:11 +0800] “GET /wp-login.php HTTP/1.1″””send fileo

cat b.txt |awk -F”[ []” ‘{print $1,$5}’
58.87.87.99 09/Jun/2020:03:42:43
128.14.209.154 09/Jun/2020:03:42:43
64.90.40.100 09/Jun/2020:03:43:11

提取host.txt主机名后再放回host.txt文件 >>
1 www.kgc.com
2 mail.kgc.com
3 ftp.kgc.com
4 linux.kgc.com
5 blog.kgc.com

[root@localhost sy]# cat host.txt |awk -F”.” ‘{print $1}’ >> host.txt
[root@localhost sy]# cat host.txt
www.kgc.com
mail.kgc.com
ftp.kgc.com
linux.kgc.com
blog.kgc.com
www
mail
ftp
linux
blog

总结：本章主要介绍了正则表达式和awk的相关 知识

原文地址:https://blog.csdn.net/2301_76352247/article/de tails/134647666

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

如若转载，请注明出处：http://www.7code.cn/show_20466.html

如若内容造成侵权/违法违规/事实不符，请联系代码007邮箱：suwngjj01@126.com进行投诉反馈，一经查实，立即删除！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

awk 元字符正则表达式

一、正则表达式

1.正则 表达式 基本 介绍

2.正则 表达式 分类

3.基本正则表达式分类

4.代表字符

5.表示次数

6.位置锚定

7.分组或其他

8.扩展正则表达式

二、awk

1.语法

2.选项

3.基础用法

4.内置 变量

5.条件 判断

6.数组

总结：本章主要介绍了正则表达式和awk的相关 知识

发表回复取消回复

一、正则表达式

1.正则表达式基本介绍

2.正则表达式分类

3.基本正则表达式分类

4.代表字符

5.表示次数

6.位置锚定

7.分组或其他

8.扩展正则表达式

二、awk

1.语法

2.选项

3.基础用法

4.内置变量

5.条件判断

6.数组

总结：本章主要介绍了正则表达式和awk的相关知识

相关文章

发表回复 取消回复

发表回复取消回复