三剑客介绍
- grep
- 英文:global search regular expression and print out the file
- 解释:基于正则表达式查找满足条件的行
- 类比:grep = select * from tab
- awk
- 英文:名字源于三个作者名字简称
- 解释:根据定位到的数据行处理其中的分段
- 类比:awk = select field from tab
- sed
- 英文:stream editor
- 解释:根据定位到的数据行修改数据
- 类比:sed = update table set field=new where field=old
一、GREP
- grep pattern file 使用基本正则表达式 (BRE)
- grep '1' file.txt
- grep -E pattern file 使用扩展正则表达式 (-E : extended regexp)
- grep -E '1|2' file.txt
- grep -i pattern file 忽略大小是写(-i : ignore casedis)
- grep -i 'a' file.txt
- grep -v pattern file 反向匹配 (-v : invert-match)
- grep -v 'a' file.txt
- grep -n pattern file 打印行号 (-n : line number)
- grep -n 'a' file.txt
- grep -o pattern file 只打印匹配字符 (-o : only match)
- grep -o 'http[s]*://\S*\.com' file.txt (匹配文件中的URL)
- grep - A|B|C num pattern file 打印命中数据的上下文( -A:after -B: before -C:context)
- grep -C 2 file.txt
- grep pattern -r path 递归搜索 ( -r:recursive)
- grep 19 -r ./
- grep pattern -lr path 递归收缩文件 (-l:files-with-matches -r:recursive)
- grep 'aaaaaaa' -lr web-*/a-*.txt
二、AWK
1、基本使用
- awk '/pattern/' file 获取匹配字符
- awk '/10/' file.txt
- seq 100 | awk ‘/10/‘
- awk ’/begin/,/end/' file 区间选择
- awk '/10/,/20/' file.txt
- seq 100 | awk '/10/,/20/'
- awk 'NR==num' file 取第n行
- awk ’NR==2' file.txt
- seq 10 | awk 'NR==2'
- awk 'NR>num’ file 大于第n行
- awk ‘NR>3' file.txt
- seq 10 | awk 'NR>3'
- awk 'NR>num1 && NR<num2’ file //大于第n1行小于第n2行
- seq 10 | awk ’NR>3 && NR<8'
- awk 'BEGIN{action} END{action}'
- echo $PATH | awk 'BEGIN{RS=":"} END{print $1}'
- awk -F "分割符" {action}
- echo $PATH | awk -F ":" '{print $NF}' //打印最后一条
2、内置变量
- FS 字段分隔符 (-F:指定字段分隔符,默认空格)
- echo 'a b c d' | awk '{print $0}' //默认空格为分隔符
- echo '1#2_3|4' | awk -F '#|_|\\|' '{print $1,$2,$3,$4}'
- echo '1#2_3|4' | awk 'BEGIN{FS="#|_|\\|"} END{print $1,$2,$3,$4}'
- echo $PATH | awk -F ':' '{print $1}'
- echo $PATH | awk 'BEGIN{FS=":"} END{print $1}'
- OFS 输出数据的字段分隔符
- echo '1#2_3|4' | awk 'BEGIN{FS="#|_|\\|";OFS="_"} END{print $1,$2,$3,$4}'
- echo '1#2_3|4' | awk '{FS="#|_|\\|";OFS="_"} {print $1,$2,$3,$4}'
- RS 记录分隔符 (单行拆分成多行)
- echo '1#2_3|4' | awk 'BEGIN{RS="#|_|\\|"} END{print $1}'
- echo $PATH | awk 'BEGIN{RS=":"} END{print $1}'
- ORS 输出字段的行分隔符
- echo '1 2#2_3|4' | awk 'BEGIN{RS="#|_|\\|";ORS="_"} END{print $0}'
- echo '1 2#2_3|4' | awk '{RS="#|_|\\|";ORS="_"} {print $0}'
- NF 字段数
- echo '1#2_3|4' | awk 'BEGIN{RS="#|_|\\|"} END{print NF}'
- NR 记录数
- echo '1#2_3|4' | awk 'BEGIN{RS="#|_|\\|"} END{print NR}'
- $0 : 代表原来的$行
- $1 : 代表第一个字段
- $2 : 代表第二个字段
- $NF: 代表最后一个字段
扩展:
- 单行拆多行
- echo $PATH | awk 'BEGIN{RS=":"}{print NR,$0}'
- 多行合并单行
- echo $PATH | awk 'BEGIN{RS=":"}{print $0}' |awk '{FS="\n";ORS=":"} {print $0}'
3、计算
- awk 'BEGIN{print 3*7}'
- awk 'BEGIN{printf "%.2f",1/3}' 小数点儿后两位
- seq 1 2 101 | awk '{sum+=$1} END{print sum/NR}'
- seq 1 100 | awk '{data[NR]=$1} END{for(k in data) sum+=data[k];print sum}
三、SED
1、基本使用
- sed [addr]X[options]
- seq 10 | sed -n '2p' #打印第二行
- seq 100 200 | sed -E 's#.(.)(.)#\1\2#g' #取后两位
- echo 'abcade' | sed 's#a#A#g' #替换所有a为A
- echo 'abcade' | sed 's/a/A/g' #替换所有a为A (#和/都可以)
- sed -i ’s/a/A/g' file.txt #替换文件里的a为A
- sed -i ‘1d' file.csv #删除文件第一行