文章目录
1 可靠性分析
故障树分析方法
自顶向下,从顶事件(最不希望发生的、对设备、人员影响最大的事件)开始,逐步向下分析导致顶事件发生的原因,直至到基础事件。分析故障原因的组合方式或发生概率。
步骤:故障树建立 - 定性分析 - 定量分析
失效模型及效应分析方法
在系统分析初期,对失效模型进行分析,分析其故障原因及其后果影响,建立解决方案,减少或避免故障,提前发现风险进行解决,提高系统可靠性。
步骤:系统定义 - 故障模型分析 - 故障原因分析 - 故障后果分析 - 解决方案分析
2 可靠性设计原则
1.可靠性设计是系统设计的一部分,在系统架构设计阶段既要考虑,但可靠性设计不能与其他系统设计原则冲突。
2.可靠性设计是在保证系统功能的前提下,以保障、提高系统可靠性为目标。
3.可靠性设计需要建立可靠性目标,但不宜庞大,应排在系统功能、用户需求。开发经费之后考虑。
3 可靠性设计方法
避错设计
代码审查、代码走查、测试先行、测试
容错设计
恢复快设计
以一组软件操作为容错单元。把程序块改为恢复快(一个恢复快包含多个功能相同、算法实现方式不同的程序块,一个运行文本,多个备份文本,形成动态备份,当运行文本失效时,备份文本替换)。一个系统内。后向恢复。
N版本冗余设计
以模块或版本为容错单元。设计多个模块或版本,对它们相同初始条件、相同输出的情况下产生的输出,进行多数投票表决,以避免模块或版本因失效而提供错误服务,从而提高可靠性。多个系统间。前向恢复。
冗余设计
以系统为容错单元。设计多个功能相同,访问路径、实现方式、算法不同的系统作为备份,当运行系统失效时,备份系统进行替换。
检错设计
检错对象:
检查点:容易发生错误、或者发生错误后对设备、人员、功能影响很大的功能
检查内容:具有代表性、易于判断的目标
检错延时
如果检错事件长到影响系统失效的正常报警,就要考虑更换检错对象或更换检错的实现方式。
实现方式
1.正常返回结果,如果结果不在正常范围内,报警;2.设置超时时间,超过设定的延时则报警;3.设置状态标志位
处理方式
通常采取:查出故障 - 中断软件系统运行 - 报警 。 是否中断系统运行取决于系统的实时性要求
降低系统复杂度设计
在保证系统正常功能性的前提下,优化系统架构结构、优化数据流流向、简化算法、简化程序代码以降低系统复杂度,从而提高系统可靠性。
4.可靠性子特性
错 易 成
容错性
易恢复性
成熟性