,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,容错计算原理,北京邮电大学,计算机科学与技术学院,姚文斌,绪论,容错,和,和避,错,错技,术,术的,产,产生,和,和发,展,展,容错,计,计算,的,的特,征,征及,定,定义,避错,和,和容,错,错技,术,术的,分,分类,容错,和,和避,错,错技,术,术的,产,产生,和,和发,展,展,评价,信,信息,系,系统,的,的三,大,大要,素,素,性能,、,、价,格,格和,可,可靠,性,性,数字,系,系统,的,的可,靠,靠性,避错,(,(Fault-avoidance,),):,完,完美,系,系统,元器,件,件老,化,化和,筛,筛选,生产,工,工艺,把,把关,容错,(,(Fault-tolerance,),):,容,容忍,错,错误,系,系统,多倍,冗,冗余,与,与表,决,决,自身,纠,纠错,能,能力,等,等,避错,设,设计,发,发展,起始,于,于计,算,算机,问,问世,之,之日,计算,机,机发,展,展经,历,历电子,管,管-晶,体,体管-,集,集成,电,电路-,大,大规,模,模集,成,成电,路,路-超,大,大规,模,模集,成,成电,路,路,避,错,错设,计,计一,直,直是,提,提高,计,计算,机,机可,靠,靠性,基,基本,方,方法,元器,件,件筛,选,选-避,错,错设,计,计结,构,构-避,错,错系,统,统,美国,军,军用,计,计算,机,机公,司,司包,括,括:NORDEN,公,公司,、,、EMM,公,公司,、,、ROLM公,司,司和MILTOPE公,司,司,产品,包,包括PDP-11M,VAX-11M等,我国,从,从80年,代,代开,始,始研,制,制抗,恶,恶劣,环,环境,计,计算,机,机,容错,设,设计-1,VonNeumann提,出,出的,五,五个,容,容错,理,理论,报,报告,是,是容,错,错研,究,究的,基,基础,60,年,年代,,,,提,出,出了,三,三模,冗,冗余,、,、N,模,模冗,余,余结,构,构、,纠,纠错,码,码理,论,论、,自,自检,和,和自,修,修计,算,算机,70,年,年代,,,,研,究,究范,围,围从,宇,宇航,领,领域,扩,扩大,到,到交,通,通管,制,制、,工,工厂,自,自动,化,化、,银,银行,、,、空,港,港管,理,理、,潜,潜艇,导,导航,等,等,,成,成果,有,有SIFT计,算,算机,、,、表,决,决多,处,处理,机,机,80,年,年代,广,广泛,应,应用,,,,容,错,错计,算,算机,普,普及,深,深入,到,到整,个,个工,业,业界,,,,Stratus,容,容错,计,计算,机,机系,列,列、IBMSystem88,,,,Tandem16等,商,商业,化,化。,容,容错,作,作为,每,每个,数,数字,系,系统,的,的一,个,个重,要,要特,征,征的,时,时代,已,已经,到,到来,容错,设,设计-2,90,年,年代,,,,基,于,于通,用,用硬,件,件的,容,容错,计,计算,机,机得,到,到重,点,点发,展,展。,代,代表,性,性是Stratus公,司,司的FtServer,系,系列,计,计算,机,机,受价,格,格制,约,约,,专,专用,容,容错,计,计算,机,机费,用,用开,销,销大,通用,硬,硬件,开,开发,时,时间,短,短、,软,软件,支,支持,丰,丰富,学术,界,界,IEEE,(,(国,际,际电,机,机和,电,电子,工,工程,学,学会,),)从1971,年,年每,年,年召,开,开“,国,国际,容,容错,计,计算,年,年会FTCS,”,”,2000,年,年后,改,改为,可,可信,计,计算,会,会议DCS,展望-可,靠,靠性,设,设计,重,重要,性,性,随着,计,计算,机,机技,术,术进,一,一步,发,发展,,,,可,靠,靠性,设,设计,必,必将,越,越来,越,越重,要,要:,计算,机,机性,能,能提,高,高使,系,系统,复,复杂,性,性增,加,加,计算,机,机应,用,用普,及,及,,使,使用,者,者容,易,易操,作,作失,误,误,计算,机,机应,用,用环,境,境恶,劣,劣,,如,如温,度,度、,湿,湿度,、,、电,磁,磁干,扰,扰、,机,机械,冲,冲击,和,和震,动,动、,盐,盐雾,硬件,成,成本,日,日益,降,降低,,,,维,护,护成,本,本相,对,对增,高,高,,需,需提,高,高系,统,统的,可,可靠,性,性以,降,降低,维,维护,费,费用,发展,方,方向-1,走与,商,商用,机,机兼,容,容道,路,路,研究,避,避错,技,技术,发,发展,抗,抗恶,劣,劣计,算,算机,瞄准,主,主流,商,商用,机,机,,集,集中,力,力量,在,在计,算,算机,结,结构,组,组装,、,、系,统,统工,艺,艺、,质,质量,控,控制,研究,商,商业,硬,硬件,和,和软,件,件构,成,成高,可,可靠,容,容错,计,计算,机,机,传统,容,容错,计,计算,机,机不,足,足包,括,括成,本,本高,(,(软/硬,件,件专,门,门设,计,计),、,、扩,展,展能,力,力差,、,、编,程,程复,杂,杂、,设,设计,能,能力,弱,弱、,设,设计,周,周期,长,长,美国NASA,的,的JPL,实,实验,室,室研,制,制航,空,空航,天,天通,用,用容,错,错计,算,算机,欧洲GUARDS,计,计划,,,,共,同,同研,制,制通,用,用容,错,错计,算,算机,发展,方,方向-2,随着VLSI,线,线路,复,复杂,性,性增,高,高,,故,故障,埋,埋藏,深,深度,增,增加,,,,发,现,现故,障,障难,度,度增,大,大,,为,为增,加,加芯,片,片可,控,控性,和,和可,观,观测,性,性的,可,可曾,实,实行,研,研究,已,已成,为,为重,要,要课,题,题,随着,整,整片,集,集成WSI技,术,术和Soc技,术,术提,出,出,,硅,硅片,容,容错,技,技术,应,应运,而,而生,将动,态,态冗,余,余技,术,术用,于,于VLSI设,计,计,,产,产生RVLSI技,术,术。,用PLA,进,进行,容,容错,设,设计,是,是实,现,现硅,片,片容,错,错,发展,方,方向-3,容错,系,系统,结,结构,从,从单,机,机向,分,分布,式,式系,统,统,,由,由通,用,用微,处,处理,器,器及,微,微计,算,算机,来,来实,现,现高,性,性能,分,分布,式,式容,错,错系,统,统,分布,式,式系,统,统具,有,有模,块,块性,、,、并,行,行性,和,和自,治,治性,三,三大,特,特征,在局部网,络,络中注入,全,全局管理,、,、并行操,作,作、自治,控,控制、冗,余,余和错误,处,处理,是,研,研究高性,能,能、高可,靠,靠性分布,式,式容错系,统,统,发展方向-4,软件可靠,性,性技术,据统计,,软,软件系统,中,中软件故,障,障占系统,故,故障比例,越,越来越高,,,,甚至达,到,到80%,以,以上,软件可靠,性,性两种方,法,法,避错法:,程,程序设计,方,方法和软,件,件验证技,术,术,容错法:,冗,冗余信息,与,与算法程,序,序,及时,发,发现程序,设,设计错误,发展方向-5,容错性能,评,评价,软件正确,性,性证明,难以获得,容,容错系统,的,的可靠性,数,数据,故障注入,:,:通过对,目,目标容错,计,计算机系,统,统注入各,种,种软/硬,件,件故障并,观,观察目标,系,系统对故,障,障的响应,,,,可以获,得,得评价目,标,标系统的,各,各种参数,,,,以辅助,系,系统设计,的,的改进,发展方向-6,理论研究,方,方面,建,立,立包含“,故,故障”状,态,态的计算,机,机模型,,并,并提出一,套,套容错系,统,统的综合,方,方法论,,建,建立一个,广,广泛的故,障,障病理学,和,和相应的,故,故障防护,学,学,绪论,容错和避,错,错技术的,产,产生和发,展,展,容错计算,的,的特征及,定,定义,避错和容,错,错技术的,分,分类,可靠性的,四,四论域信,息,息模型,逻辑的、,信,信息的(,内,内部的),、,、物理的,、,、用户的,(,(外部的,),)这样一,个,个递增次,序,序构造一,个,个层次结,构,构模型来,描,描述一个,信,信息处理,系,系统,层次结构,模,模型中每,一,一层次都,包,包含各自,的,的一组基,本,本概念、,模,模型和术,语,语,设计,要,要求、性,能,能度量、,正,正确特性,样,样式、测,试,试方法和,概,概念规范,都,都可以通,过,过给定的,论,论域描述,系统的正,常,常功能可,由,由一个不,希,希望时间UE(Unexpectant Even),(,(失效、,故,故障、错,误,误、失败,而,而破坏),、,、不希望,事,事件源于,一,一个内部,的,的论域,容错系统,的,的属性和,实,实现它的,方,方法论就,可,可以通过,四,四论域、,它,它们的不,希,希望事件,、,、不希望,事,事件的检,测,测算法和,恢,恢复算法,来,来解释,容错计算,就,就可以定,义,义为当系,统,统出现不,希,希望事件,时,时仍能正,确,确地执行,所,所规定的,算,算法,不希望事,件,件UE的,分,分类,不希望事,件,件在从逻,辑,辑域、信,息,息域、物,理,理域、用,户,户域分别,称,称为故障-错误-失效-失败,。,。对于每,一,一个论域,,,,我们都,可,可以根据,原,原因、时,间,间间隔、,值,值和范围,对,对该域的,不,不希望事,件,件等价在,逻,逻辑域来,描,描述,并,都,都把他们,归,归纳为“,故,故障模型,”,”,故障分类,按时间间,隔,隔分为“,永,永久故障,”,”和“瞬,间,间故障”,按值分为,“,“确定值,故,故障”和,“,“非确定,值,值故障”,按范围分,为,为“局部,故,故障”和,“,“分布式,故,故障”,容忍不希,望,望事件,确认被容,忍,忍的不希,望,望事件的,规,规范,选择与该,不,不希望事,件,件的类别,相,相匹配的,检,检测算法,设计恢复,算,算法,使系统恢,复,复到正确,操,操作的某,个,个级或者,安,安全停机,(,(系统恢,复,复),容错计算,四,四要素,UE的检,测,测,损坏估价,UE的恢,复,复,UE处理,和,和继续服,务,务,实现容错,计,计算的主,要,要方法,硬件冗余,时间冗余,信息冗余,软件冗余,硬件冗余,硬件堆积,冗,冗余(N,模,模冗余),待命储备,冗,冗余,混合冗余,系,系统,时间冗余,通过消耗,时,时间资源,来,来达到容,错,错目的,方法:初,始,始检查、,联,联机检查,、,、周期检,查,查,信息冗余,增加信息,的,的多余度,来,来提高可,靠,靠性,检错能力,和,和纠错能,力,力,方法:奇,偶,偶码、海,明,明码、乘,积,积码、循,环,环码,优点,增加的冗,余,余度比别,的,的方法低,、,、许多码,的,的信息位,和,和校验位,在,在运算中,可,可统一处,理,理,能纠正瞬,时,时错误,,提,提供故障,自,自检测、,自,自定位、,自,自纠错能,力,力,缺点,产生延时,,,,难于纠,正,正编码器,和,和译码器,本,本身的错,误,误,软件冗余,无错误软,件,件,高可靠软,件,件产品的,程,程序设计,方,方法,软件测试,技,技术,程序正确,性,性证明,容错软件,静态冗余,:,:NVP,动态冗余,:,:RB,综合冗余,技,技术,根据系统,特,特性所确,定,定的可靠,性,性指标,,成,成本诸因,素,素选择适,当,当的冗余,方,方式,将,这,这些冗余,方,方式应用,于,于适当的,级,级别,可靠性参,数,数,度量系统,可,可靠性参,数,数:R(t),A(t),系统可靠,度,度R(t)是指在t=0时,系,系统正常,的,的条件下,,,,系统在,时,时间区间0,t内能正,常,常运行的,概,概率,系统可靠,度,度可以表,示,示为:,系统可用,度,度A(t)是指系,统,统在时间t可运行,的,的概率:,当,当t趋于,无,无穷大时,,,,A(t)的极限,存,存在,则,该,该极限成,为,为系统的,稳