Linux工具-awk | HoleLin's Blog

参考文献

AWK 简明教程

`AWK`

awk是逐行处理的，逐行处理的意思就是说，当awk处理一个文本时，会一行一行进行处理，处理完当前行，再处理下一行，awk默认以”换行符”为标记，识别每一行，也就是说，awk跟我们人类一样，每次遇到”回车换行”，就认为是当前行的结束，新的一行的开始，awk会按照用户指定的分割符去分割当前行，如果没有指定分割符，默认使用空格作为分隔符。

内建变量

变量	说明
`$0`	当前记录（这个变量中存放着整个行的内容）
`$1~$n`	当前记录的第`n`个字段,字段间由`FS`分隔
`FS`	输入字段分隔符默认是空格或Tab
`NF`	Number of Field，当前行的字段的个数(即当前行被分割成了几列)，字段数量
`NR`	行号,当前处理的文本行的行号
`FNR`	各个文件自己的行号
`RS`	输入的记录分隔符, 默认为换行符
`OFS`	输出字段分隔符, 默认也是空格
`ORS`	输出的记录分隔符,默认为换行符
`FILENAME`	当前输入文件的名字
`ARGC`	命令行参数的个数
`ARGV`	数组,保存的是命令行所在给定的各个参数

`awk`脚本

BEGIN{ 这里面放的是执行前的语句 }
END {这里面放的是处理完所有的行后要执行的语句 }
{这里面放的是处理每一行时要执行的语句}

$ cat cal.awk
#!/bin/awk -f
#运行前
BEGIN {
    math = 0
    english = 0
    computer = 0

    printf "NAME    NO.   MATH  ENGLISH  COMPUTER   TOTAL\n"
    printf "---------------------------------------------\n"
}
#运行中
{
    math+=$3
    english+=$4
    computer+=$5
    printf "%-6s %-6s %4d %8d %8d %8d\n", $1, $2, $3,$4,$5, $3+$4+$5
}
#运行后
END {
    printf "---------------------------------------------\n"
    printf "  TOTAL:%10d %8d %8d \n", math, english, computer
    printf "AVERAGE:%10.2f %8.2f %8.2f\n", math/NR, english/NR, computer/NR
}

环境变量

使用-v参数和ENVIRON,使用ENVIRON的环境变量需要export

$ x=5

$ y=10
$ export y

$ echo $x $y
5 10

$ awk -v val=$x '{print $1, $2, $3, $4+val, $5+ENVIRON["y"]}' OFS="\t" score.txt

示例

输出文本的第一列和第四列

1	awk '{print $1,$4}' netstat.txt

按指定格式输出

1	awk '{prinf "%-8s %-8s %-8s %-20s %-20s %-20s\n",$1,$2,$3,$4,$5,$6}' netstat.txt

%-ns 表示输出字符串占用 n个字符的位置

根据条件过滤记录

1	awk '$3==0 && $6=="TIME_WAIT"' netstat.txt

指定分隔符

1
2
3

awk 'BEGIN{FS=","} {print $1,$2,$5}' netstat.txt
# <=>
awk -F, '{print $1,$2,$5}' netstat.txt

1 2	# 指定多个分隔符 awk -F'[=:]' '{print $1,$2,$5}' netstat.txt

1 2	# 指定输出分隔符 awk -v OFS="---" '{print $1,$2}' netstat.txt

字符串匹配

1 2	# 输出含有TIME_WAIT字样的记录 awk '/TIME_WAIT/ {print $0}' netstat.txt

正则表达式匹配

1 2	# ~ 表示模式开始。/ /中是模式 awk '$6 ~ /TIME_WAIT/ \|\| NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt

1 2	# 取反 awk '$6 !~ /WAIT/ \|\| NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt

拆分文件

1	awk 'NR!=1{print > $6}' netstat.txt

NR!=1表示不处理表头

1 2	# 把指定的列输出到文件 awk 'NR!=1{print $4,$5 > $6}' netstat.txt

# 
awk 'NR!=1{if($6 ~ /TIME|ESTABLISHED/) print > "1.txt";
else if($6 ~ /LISTEN/) print > "2.txt";
else print > "3.txt" }' netstat.txt

统计

# 计算所有的C文件,CPP文件和H文件的文件大小总和
ls -l  *.cpp *.c *.h | awk '{sum+=$5} END {print sum}'
# 统计网络状态
awk 'NR!=1{a[$6]++;} END {for (i in a) print i ", " a[i];}' netstat.txt
# 统计每个用户的进程的占了多少内存
ps aux | awk 'NR!=1{a[$1]+=$6;} END { for(i in a) print i ", " a[i]"KB";}'

参考文献

AWK

内建变量

awk脚本

环境变量

示例

输出文本的第一列和第四列

按指定格式输出

根据条件过滤记录

指定分隔符

字符串匹配

正则表达式匹配

拆分文件

统计

`AWK`

`awk`脚本