watchdog简介
watchdog 中文意思看门狗,是Linux系统中的一个特别重要的监测响应机制,负责监测系统运行的情况,一旦出现锁死,死机的情况,能够及时的重启机器,并收集crash dump。
又称watchdog timer,是计算机可靠性(dependability)领域中一个极为简单同时非常有效的检测(detection)工具。其基本思想是针对被监视的目标设置一个计数器和一个阈值,watchdog会自己增加计数值,并等待被监视的目标周期性地重置计数值。一旦目标发生错误,没来得及重置计数值,watchdog会检测到计数值溢出,并采取恢复措施(通常情况下是重启)。总结一下就是计数——溢出——触发。
watchdog有好几种不同的机制,最主要的还是内核watchdog和userland watchdog。
无论什么样的机制,都离不开watchdog的基本思路:
- 系统的某一个事件会被策略设定一个阈值,这个系统会产生或者关联一个计数器来统计