红联Linux门户
Linux帮助

文本分析工具-awk

发布时间:2014-12-29 09:47:05来源:linux网站作者:sohudrgon

一.AWK简介

awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。

awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。

awk其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母。实际上 AWK 的确拥有自己的语言: AWK 程序设计语言,三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表,还有无数其他的功能。


二.使用方法

awk '{pattern +action}' {filenames}

尽管操作可能会很复杂,但语法总是这样,其中 pattern 表示 AWK 在数据中查找的内容,而action 是在找到匹配内容时所执行的一系列命令。花括号({})不需要在程序中始终出现,但它们用于根据特定的模式对一系列指令进行分组。 pattern就是要表示的正则表达式,用斜杠括起来。

awk语言的最基本功能是在文件或者字符串中基于指定规则浏览和抽取信息,awk抽取信息后,才能进行其他文本操作。完整的awk脚本通常用来格式化文本文件中的信息。

通常,awk是以文件的一行为处理单位的。awk每接收文件的一行,然后执行相应的命令,来处理文本。


三.调用awk的方式

有三种方式调用awk

1.命令行方式
1
 
awk [-Ffield-separator]'commands' input-file(s)

其中,commands 是真正awk命令,[-F域分隔符]是可选的。 input-file(s) 是待处理的文件。

在awk中,文件的每一行中,由域分隔符分开的每一项称为一个域。通常,在不指名-F域分隔符的情况下,默认的域分隔符是空格。

2.shell脚本方式

将所有的awk命令插入一个文件,并使awk程序可执行,然后awk命令解释器作为脚本的首行,一遍通过键入脚本名称来调用。

相当于shell脚本首行的:#!/bin/sh

可以换成:#!/bin/awk

3.将所有的awk命令插入一个单独文件,然后调用:

awk -fawk-script-file input-file(s)

其中,-f选项加载awk-script-file中的awk脚本,input-file(s)跟上面的是一样的。


四.awk基本命令介绍

选项:

-F[:]:指明输入字段分隔符

-v var=var :变量赋值,对内置变量或自定义变量赋值

实例1:以逗号为字段分隔符,打印文本内容的第一个字段和第三个字段(取到的结果就是用户的用户名和UID)
1
2
3
4
5
 
#gawk -F:'{print $1,$3}' /etc/passwd
root 0
bin 1
daemon 2

无逗号就会连接两个字段,逗号是输出分隔符
1
2
3
4
5
 
# gawk -F:'{print $1$3}' /etc/passwd
root0
bin1
daemon2

这种是awk+action的示例,每行都会执行action{print $1,$3}。
 

五.awk的输出命令:print和printf

awk中同时提供了print和printf两种打印输出的函数。

5.1.print命令:

命令用法:
1
 
printitem1,item2……
 
使用要点:

1.各item间使用逗号分割,而输出时则使用输出分隔符

2.输出的各item可以是字符串或数值,当前记录的字段($n),变量或awk的表达式;数值会被隐式转换为字符进行输出

3.print后面的item如果省略,相当于print $0(输出整行);输出空白使用print"";

5.2.printf命令:

命令格式:
1
 
printfformat,item1,item2……

使用要点:

1.format格式符必须使用

2.不会自动换行,需要手动添加行分隔符

3.format格式符中需要分别为后面的每个item指定一个格式符

格式符:都以%开头,后跟一个字符

%c:显示字符的ASCII码;

%i,%d:显示十进制整数;

%e,%E:科学计数法显示数值;

%f:显示浮点数;

%g,%G:以科学计数法格式或浮点数格式显示数值;

%s:字符串;

%u:无符号整数;

%%:显示%自身

修饰符:

#[.#]:第一个#显示宽度,例如%30s;第二个.#显示小数点后精度

-:左对齐

+:显示数值符号


六.awk的变量

6.1.内置变量

records:行相关

fields:字段相关

FS: input field seperator,字段分隔符,默认为空白字符

#awk -v FS=":" '{print $1,$3}' /etc/passwd

OFS:output fieldseparator,输出字段分隔符

语句与语句之间分隔符定义,默认是空格

# awk'BEGIN{FS=":"; OFS="="} {print $1,$3}' /etc/passwd

RS:input record seperator,输入记录的分隔符,默认为新行。

实例:以冒号为换行符,输出全文内容

# awk -v RS=":" '{print $0}' /etc/passwd

ORS: Outpput Row Seperator, 输出时的行分隔符;

默认的行分隔符一般都是换行,我们可以自定义为#

下面就是将所有以:为分隔符的替换成以#的分隔符:

# awk 'BEGIN{ RS=":";ORS="#"} {print $0}' /etc/passwd

NF:Number of Field,当前记录的字段(field)个数

统计/etc/issue文件内每行字段的个数:

# awk '{print NF}' /etc/issue

注意:这里NF是变量引用,可以不用加$,$NF显示字段位置

NR: number of inputrecords ,当前文本的行数

如果有多个文件,这个数目会把处理的多个文件中行统一计数

FNR: 与NR不同的是,FNR用于记录正处理的行是当前这一文件中被总共处理的行数

ARGV:数组,保存命令本身这个字符,awk'{print $0}' file1 file2,意味着ARGV[0]保存awk,

ARGC: 保存awk命令中参数的个数,不包含命令本身;

此命令中有3个参数,为awk/etc/fstab/etc/issue

FILENAME:当前文件名

IGNORECASE:控制是否忽略字符大小写变量

6.2.自定义变量

直接使用

-v var=valname:变量名区分字符大小写

1.可以在program中定义变量

2.可以在选项中定义变量

等同于:

# awk -v file="passwd" '{printfile,$1}' /etc/passwd


七.操作符

算术操作符:

+ - * / ^ %

-n:负值

+n:转换为数值

字符串操作符:字符串连接

赋值操作符:

= += -+ *= /= %= ^=

++--

比较操作符:

 <<=>>= ==!=

模式匹配符:

~!~

逻辑操作符:

&& ||

条件表达式:

selector?if-true-expression;if-false-expression

例如:判断UID是否大于等于500,如果为真就显示为普通用户,如果为假就显示为系统或管理用户;

# awk -F:'{$3>=500?usertype="common user":usertype="sySUSEr oradmin";print $1,"is",usertype}' /etc/passwd

函数调用:

function_name(argu1,argu2……)


八.awk中常见的模式类型

8.1./regular expression/:仅处理能被正则表达式匹配的

例如:显示root用户名及用户id号

# awk -F: '/^\<root\>/{print $1,$3}'/etc/passwd

8.2. relational expression:关系表达式,结果有真假之分,其结果为非0或非空字符串时为真,否则为假;

例如:输出用户ID大于等于500的所有用户名和UID;

# awk -F: '$3>=500{print $1,$3}'/etc/passwd

例如:输出家目录是root的用户

# awk -F: '$5~/root/{print $0}' /etc/passwd

8.3. line range:行范围,类似sed或vim的地址定界;startline,endline

8.4.BEGIN/END:特殊模式,

仅在awk运行程序之前执行一次(BEGIN)或仅在awk运行程序之后执行一次(END)

BEGIN表示在读取文本内容之前做预处理操作

实例:在读取/etc/passwd操作文本显示用户使用bash shell的用户之前预处理输入一个”username shell”字段;

# awk -F: 'BEGIN{print "usernameshell"}$7~/bash\>/{print $1,$7}' /etc/passwd

END表示在处理完成后做结束收尾操作

# awk -F: 'BEGIN{print "usernameshell\n#################"}$7~/bash\>/{print $1,$7}END{print"##################\nend of the file"}' /etc/passwd

8.5. empty,空模式,匹配任意行


九.awk中常用的动作声明(操作动作)

(1) Expressions :表达式 赋值等

(2) Control statements :条件语句,控制语句ifwhile。。。

(3) Compound statements :组合语句

(4) input statements :输入语句

(5) output statements :输出语句 printprintf


十.awk中常用的控制语句
1
2
3
4
5
6
7
8
9
10
11
 
if (condition) statement [ else statement ]
while (condition) statement
do statement while (condition)
for (expr1; expr2; expr3) statement
for (var in array) statement
break
continue
delete array[index]
delete array
exit [ expression ]
{ statements }

10.1.if else语句
1
2
 
if (condition) statement [ else statement ]
if (condition){statements;} [ else{statements;} ]

用法:对awk取得的整行或行中的字段做条件判断

实例:显示文件中字段数等于8的行,并打印出来。

# awk '{if (NF==8) {print $0}}' /etc/inittab

实例:显示uid>=500的用户信息,显示为普通用户;否则显示为管理用户

# awk -F: '{if ($3>=500) {print $1," is a common user"}else{print $1,"is a systemuser"}}' /etc/passwd

10.2.while循环语句

语法格式:
1
2
 
while (condition)statement
while (condition){statements}

条件为真时进行循环,直到为假退出

用法:在当前行的各字段间循环

实例:每个字段的字符个数显示

# awk '{i=1;while(i<=NF){if(length($i)>5) {printf "%20s:%d\n",$i,length($i);}i++}}' /etc/inittab

实例:只显示奇数字段

# awk -F:'$1!~/root/{i=1;while(i<=NF){print $i;i+=2}}' /etc/passwd

实例:只显示文本内的偶数字段,每个字段以空格分隔

# awk '{i=2;while(i<=NF){printf "%s",$i;i+=2};print ""}' /etc/fstab

实例:输出每个字段长度大于6 的字段

length()函数:取字符串的长度

# awk '{for(i=1;i<=NF;i++) {printf"%s:%d\n",$i,length($i)}}' /etc/inittab

10.3.for循环语句

语句语法:
1
2
 
for (expr1;expr2;expr3) {statements}
for ( variable assignment(条件赋值);condition(循环执行); iteration process(变量修正)) { statement1, statement2, ...}

for循环还可以用来遍历数组元素:

语句语法: for (i in array) {statement1, statement2, ...}

实例:遍历文件中的奇数字段,显示出来

# awk '{for(i=1;i<=NF;i+=2){printf"%s ", $i};print ""}' /etc/issue

实例:遍历文件中的长度大于6的字段并显示

# awk '{for(i=1;i<=NF;i+=2){if (length($i)>=6)print $i }}'/etc/issue

for {A in ARRAY} {print ARRAY[A]}

实例:A中保存数组下标,B中保留数组A的下标

# awk'BEGIN{A["m"]="hello";A["n"]="welcome to mysite";for (B in A) print A[B]}'

10.4. switch语句

gawk增加了对case语句的支持,是GNUawk特有的

语法格式:
1
 
switch (expression) {case VALUE or /REGEXP/:statement;caseVALUE:statement1;…;default:statementN}

10.5.break and continue

break[n]:退出当前循环

continue[n]:提前结束本轮循环,直接进入下轮循环

10.6.next

提前结束对本行的处理而进入下一行的处理

控制awk内生的遍历功能

实例:显示用户id为偶数的用户

# awk -F: '{if($3%2==0) {print $1,$3}}'/etc/passwd

# awk -F: '{if($3%2!=0) next;print $1,$3}' /etc/passwd

10.7.Array

数组,关联数组:array[index-expression]

index-expression

可以使用任意字符串

如果某数组元素事先不存在,在引用时,awk会自动创建此元素并将其初始化为空串;;

因此,若要判断数组中是否存在某元素,要使用“index in array”进行判断;

用法示例:

要遍历数组中的每一个元素,需要使用如下特殊结构:

for (var in array) {for body}

其var会遍历array的索引;而非元素值

注意:var会遍历array的每一个下标(索引),print array[var]

实例:统计以root开头的行内每一个单词出现的次数。

# awk -F:'/^root/{for(i=1;i<=NF;i++){count[$i]++}}END{for (j in count){printj,count[j]}}' /etc/passwd

实例:统计每一种网络连接出现的次数

# ss -tan |awk'!/State/{state[$1]++}END{for (i in state) {print i,state[i]}}'

wKioL1SebCGADZ-ZAAA8KTOyg4I323.jpg

# netstat -tan |awk'/^tcp/{state[$NF]++}END{for (i in state){print i,state[i]}}'

实例:统计http访问日志中每个ip出现次数

# awk '{num[$1]++}END{for (i in num){printi,num[i]}}' /var/log/httpd/www1.access


十一.函数

11.1.内置函数

数值处理:

 rand():返回0和1 之间的一个随机数

字符串处理:

length([s]):返回指定字符串的长度

index(s,t):返回索引字串t在s的位置

sub(r,s[,t]

以r所表示的模式来查找t字符串中的匹配,将其第一次出现替换同s所表示的字符串

sub(ab,AB,$0)

实例:以”-“这个匹配模式查找输入内容为第四段的内容,将其第一次出现’-‘的删除;

gsub(r,s[,t]):全局查找替换

以r所表示的模式来查找t字符串中的匹配,将其所有出现替换同s所表示的字符串

实例:以”-“这个匹配模式查找输入内容为第四段的内容,将其所有出现’-‘的删除;

sub函数只实现第一个位置的替换,gsub函数实现全局的替换。

实例:统计连接请求的ip地址

# netstat -tan |awk'/^tcp/{split($5,client,":");ip[client[1]]++}END{for(i in ip){printi,ip[i]}}'

另一种实现:

连接ip是倒数第二个字段:结果一致

# netstat -tan |awk'/^tcp/{len=split($5,client,":");ip[client[len-1]]++}END{for(i inip){print i,ip[i]}}'

substr(s,i[,n]):可利用这些变量来截取字符串

从s表示的字符串中取字串,从i开始,取n个字符

实例:网站访问日志中截取ip地址,请求方法,状态码,响应报文大小字段;

# awk '{printsubstr($1,1,13),substr($6,2,3),substr($9,1,3),substr($10,1,3)}'/var/log/httpd/www1.access

systime函数:返回从1970年1月1日开始到当前时间(不计闰年)的整秒数。

格式如下:systime()

实例:显示当前时间用system函数

# awk '{ now = systime() ; print now }'

11.2.自定义函数
1
2
3
4
 
function f_name(p,q)
{
…….
}

awk的函数可以在引号中的任意地方定义,用{}括起即可,可以定义参数,但调用时可带可不带

说明:显示每行前两个域的较大值,max为函数名,a、b为参数。