首页 理论教育系统可靠性基本术语解析

系统可靠性基本术语解析

【摘要】:我们讨论的可靠性,一般说的是系统的可靠性。图10.1所示的是系统与环境的说明。系统的外部状态可以定义为系统受到外部触发后的响应。规格说明指示每个系统状态的有效行为。这对可靠性来说是很重要的概念。追究其不足,系统故障可能是其构成成分的问题,或者是其设计的问题。图10.2系统故障生成链注意,系统故障的产生也可以追溯到设计问题。系统故障的最后一个源头可能是操作员的误操作。图10.3系统故障缘由分析

我们讨论的可靠性,一般说的是系统的可靠性。

什么是系统?简单来说,系统是一种由一组成分构成的机制,它与环境交互,接受环境的刺激后会给出相应的反应。按照文献的说法,我们将系统定义为:系统(system)是由一组零件(元件)、部件、子系统或装配件(统称为成分)构成的,能实现期望的功能,并具有可接受的性能和可靠性水平的一种特定设计。

系统的每个成分本身也可以是一个系统,我们称为子系统。一个成分环境是一个系统。把一个系统的成分组合起来的过程称为系统设计。图10.1所示的是系统与环境的说明。需要指出的是,图中我们考虑的软件成分多于硬件成分。

图10.1 系统与环境

什么是系统结构?系统结构,是指构成系统要素间相互联系、相互作用的方式和秩序,或者说是系统联系的全体集合。[1]

系统以外的部分称为系统环境,系统与系统环境是通过物质、能量和信息的输入、输出关系相互联系的。这里只考虑信息的输入和输出联系。

系统的外部状态可以定义为系统受到外部触发后的响应。因此,可以通过从环境反复触发导致的系统状态变化来研究系统行为。类似地,系统的内部状态可以定义为构成系统所有成分的内部状态的组合。同样,在环境的触发下,系统的内部状态的响应也会导致系统内部状态发生变化。若要提供对来自环境所有可能触发的响应的系统行为,就需要对其行为进行权威性的说明,我们称为规格说明(specification)。规格说明指示每个系统状态的有效行为。这对可靠性来说是很重要的概念。

系统的行为和规格说明的任何偏离都可以看成是故障。例如,在一个分布式事务管理器里,规定只能生成可串行化调度。如果出现非可串行化调度,我们就说是出现了故障。(www.chuimin.cn)

当然,每发生一个故障就必须追究其原因。追究其不足,系统故障可能是其构成成分的问题,或者是其设计的问题。一个可靠的系统的每种状态如果全部满足其规格说明,就是有效的。然而,在不可靠的系统里,系统可能会有一种内部状态不满足其规格说明,而且在状态转换时器件也会发生故障,我们称这种内部状态不满足规格说明为错误状态(erroneous states)。系统中不正确的状态部分称为错误(error)。成分内部状态的任何错误或系统设计中的任何错误称为系统的缺陷(fault)。由缺陷造成错误,从而导致系统故障(system failure)。

我们把缺陷(错误或故障)区分为永久性的和非永久性的。永久性的缺陷俗称硬缺陷,指的是不可逆转的情况。永久性的缺陷导致永久错误,最后导致永久故障。非永久性的是指可以通过“修理”缺陷而得到恢复的,我们称为软缺陷、软故障。间隙缺陷(intermittent fault)是指一种缺陷的表征是偶发性的,其原因是不稳定的硬件或易变的硬件或软件状态,典型的情况如,一旦系统负载过重,就会发生这类情况。另一方面,瞬时缺陷(transient fault)表征的是由临时环境状态产生的缺陷,例如,当室内温度突然增加时可发生短暂缺陷。显然,瞬时缺陷源于环境,所以无法修复;间隙缺陷则由于可以追溯到产生问题的系统成分,所以可以修复。图10.2所示的为系统故障生成链。

图10.2 系统故障生成链

注意,系统故障的产生也可以追溯到设计问题。设计缺陷和不稳定的硬件会产生间隙错误,最后导致系统故障。系统故障的最后一个源头可能是操作员的误操作。系统故障缘由可以用图10.3来表示。

图10.3 系统故障缘由分析