Bootstrap

shell命令笔记

查看硬件信息、系统版本

echo -e "=================================\ncpu nums:\c" && \
cat /proc/cpuinfo |grep "physical id"|sort |uniq|wc -l && \
cat /proc/cpuinfo |grep "cores"|uniq |sed s/[[:space:]]//g && \
echo -e "logical core nums:\c" && cat /proc/cpuinfo| grep "processor"| wc -l && \
echo -e "CPU:\c" && cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq  && \
free -g|grep :|awk -F '[ ;]+' '{print $1,$2}' && \
cat /etc/system-release||cat /etc/issue &&\
echo "" && \
lsblk -o NAME,FSTYPE,SIZE,MOUNTPOINT,ROTA 或者 df -Th |grep  ^[F/]  ROTA:1=普通硬盘,0=SSD/U盘

查看分区
fdisk -l
df -h

查看系统版本
cat /etc/redhat-release
cat /etc/centos-release
cat /etc/issue

 查看IO

查看IO使用情况、读写速度
iotop
iostat
测试磁盘读取速度
hdparm -t --direct /dev/sda
测试磁盘写入速度
time dd if=/dev/zero of=/ssd/test.dbf bs=8k count=30000
查看文件夹大小
du -h --max-depth=1 /opt/hadoop-2.7.6

查看文件内容(head 当前集合前240行,tail,当前集合后40行,结合起来就是200-240行)
cat file_name | head -n 240 | tail -n 40

查看文件编码等信息 file a.txt

转换文件编码
iconv -f gb18030 -t utf-8 -c '/home/1.csv'>/home/2.csv  (-c为忽略错误)

cp文件,跳过部分子文件(注意data为相对路径,即hadoop-2.7.6目录下的data目录)https://www.cnblogs.com/hubavyn/p/5452039.html

rsync -av --exclude "data" /opt/hadoop-2.7.6 /data/hadoop_without_data
同步到远程文件夹,此处是排除了/infa_shared/info_xfs/infa_shared/messagefile/sourcefilexsg,将/infa_shared/info_xfs/infa_shared发送到远程目录下
rsync -av -e ssh --exclude "messagefile/sourcefilexsg" /infa_shared/info_xfs/infa_shared [email protected]:/infa_shared/info_xfs/

查找(忽略无权限错误):find / -name a.txt 2>/dev/null

输出日志到日期名称的文件:echo 123 >./logs/`date '+%Y-%m-%d-%H-%M-%S'`.log  2>&1 

获取时间戳:date +%s             时间戳转日期:date -d "@1279592730"

后台执行并输出日志(注意python使用nohup时要加-u取消缓存,才能立即输出日志到文件):nohup /usr/bin/python -u /main_Spider.py > /logs/main_Spider.log 2>&1 &

查看ip ifconfig

 shell变量字符串处理

定义一个变量为:
file=/dir1/dir2/dir3/my.file.txt

可以用${ }分别替换得到不同的值:
${file#*/}:删掉第一个 / 及其左边的字符串:dir1/dir2/dir3/my.file.txt
${file##*/}:删掉最后一个 /  及其左边的字符串:my.file.txt
${file#*.}:删掉第一个 .  及其左边的字符串:file.txt
${file##*.}:删掉最后一个 .  及其左边的字符串:txt
${file%/*}:删掉最后一个  /  及其右边的字符串:/dir1/dir2/dir3
${file%%/*}:删掉第一个 /  及其右边的字符串:(空值)
${file%.*}:删掉最后一个  .  及其右边的字符串:/dir1/dir2/dir3/my.file
${file%%.*}:删掉第一个  .   及其右边的字符串:/dir1/dir2/dir3/my

空格用[[:space:]]表示,${line##*[[:space:]]}

记忆的方法为:
# 是 去掉左边(键盘上#在 $ 的左边)
%是去掉右边(键盘上% 在$ 的右边)
单一符号是最小匹配;两个符号是最大匹配
${file:0:5}:提取最左边的 5 个字节:/dir1
${file:5:5}:提取第 5 个字节右边的连续5个字节:/dir2

也可以对变量值里的字符串作替换:
${file/dir/path}:将第一个dir 替换为path:/path1/dir2/dir3/my.file.txt
${file//dir/path}:将全部dir 替换为 path:/path1/path2/path3/my.file.txt

${#var} 可计算出变量值的长度

shell调用脚本,传入带空格的参数

#!/bin/bash
#当前sh所在文件夹路径
localpath=$(cd `dirname $0`; pwd)
#当前时间
time=$(date "+%Y%m%d%H%M%S")

python3=/home/etl/anaconda/bin/python
$python3 $localpath/DataWatcher.py "$@" 


调用方式
/DataWatcher.sh "select count(1) from scott.t3" 20001 "<=2" 30 150
关键在于从外部向shell传入参数和从shell内部向python传入参数时都要加双引号,即"select ... from"和"$@" 

shell去除文件bom头,解决#!/bin/bash文件不存在的问题

sed -i 's/^\xEF\xBB\xBF//g' test.txt

vim操作

:s/old/new/  替换当前行第一个old为new
:s/old/new/g 替换当前行所有old为new
:1,$ s/old/new/g 替换第一行到最后一行所有old为new(即全部替换)  此处1,$即指定替换范围为第一行到最后一行

$  移动光标到当前行末尾
:$ 移动光标到最后一行开头,再按$到该行末尾
:1 移动光标到第一行开头

u  撤销上一步的操作

:r !echo $HIVE_HOME 将shell命令的结果插入到当前行的下一行

:set list 显示不可见字符

从windows拷贝到linux的sh文件无法执行,需要在linux下重新编写,或者使用dos2unix转化文件为linux系统的格式,执行前需授权chmod 777授权,开头需为#!/bin/bash

解决python#!的编码问题 /usr/bin/python3.6^M: bad interpreter

在vim中  :set ff=unix 即可

免密登录
ssh-keygen -t rsa	一路enter
ssh-copy-id zx105	期间需要手动输入目标机器hadoop账户的密码

多次配置连接同一机器导致报错
vim  /home/hadoop/.ssh/known_hosts
删除该主机对应的记录,重新配置即可

利用管道批量操作,列出文件绝对路径,并批量操作

ls /share/109backup |awk '{print i$0}' i=`pwd`'/' |xargs echo 

批量杀死包含特定字符串的进程

ps -efww|grep chromedriver|grep -v grep|cut -c 9-15|xargs kill -9

利用for循环遍历文件夹

#!/bin/bash
export dir=$(dirname $0)/original_ad_part1_in
echo $dir
row_sum=0
for line in $dir/*
do
        row=`grep -c "," $line`
        echo "${line##*/} : $row"
        row_sum=$(($row_sum + $row))
done
echo row_sum=$row_sum

利用管道遍历

#!/bin/bash
export dir=$JAVA_HOME
count=0
ls $dir|while read line
do
        echo "$count $line\n"
        let "count++"
done

注意使用以上方法遍历时循环体在子线程中产生,可以使用父线程的变量,但是对变量赋值后无法传回父线程,解决方法是使用for循环遍历,参考网页shell 循环变量传递问题_光头阿瓜的博客-CSDN博客

查看计算机系统配置

echo -e "=================================\ncpu nums:\c" && \
cat /proc/cpuinfo |grep "physical id"|sort |uniq|wc -l && \
cat /proc/cpuinfo |grep "cores"|uniq |sed s/[[:space:]]//g && \
echo -e "logical core nums:\c" && cat /proc/cpuinfo| grep "processor"| wc -l && \
echo -e "CPU:\c" && cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq  && \
free -g|grep :|awk -F '[ ;]+' '{print $1,$2}' && \
echo "" && \
lsblk -o NAME,FSTYPE,SIZE,MOUNTPOINT,ROTA

根据字符串截取路径和文件名

a="/sh/original_ad/row_count.sh"
[hadoop@zx105 ~]$ echo ${a%/*}
/sh/original_ad
[hadoop@zx105 ~]$ echo ${a##*/}
row_count.sh

getopts读取参数示例

#!/bin/bash
while getopts ":u:p:H:P:sk" opt 
#列举可能的选项,后面加:表明该项必须带参数
do
        case $opt in
                u ) user=$OPTARG;;
                p ) passwd=$OPTARG;;
                H ) host=$OPTARG;;
                P ) port=$OPTARG;;
                s ) show=1;;
                k ) ki=1;;
                #while中":u:p:"第一个字符为:时,会抑制错误,下一句的$OPTARG才能显示无效选项,否则为空
                ? ) echo -e "Invalid option: -$OPTARG , Please give these options: \n -u --> usr \n -p --> passwd \n -H --> host \n -P --> port"
                    exit 1;;
        esac
done
shift $(($OPTIND - 1)) #此处之后可以使用$1、$2获取后面的参数
echo user=$user passwd=$passwd host=$host port=$port
echo $1

连接ftp

ftp   进入ftp命令行
open  连接
172.16.206.** 1209
user
passwd
pwd  显示当前目录
dir  显示当前目录文件
bye  退出

sed替换文件中的字符串

注意单双引号,此方法也适用于有特殊字符的替换
oldstr='fgrw_#R3_3$@'
newstr='fewfrt4@331de'
echo $oldstr  ~~  $newstr
sed -i "s/$oldstr/$newstr/g" /u01/data/app.json

;