Skip to content

Latest commit

 

History

History
7 lines (7 loc) · 6.41 KB

FailureModeList.md

File metadata and controls

7 lines (7 loc) · 6.41 KB
故障名称 故障描述 故障目标(影响硬件) 案例 解决方案 论文引用
Fail-stop 系统中的某个部件停止运行或响应,其原因可能有两种:节点崩溃以及网络中断和分区。大多数的容错系统倾向于在错误的程序写入永久数据或与其它进程通信之前将其停止,这构成了fail-stop模式的核心。 最普通的故障,任何硬件都有可能出现,也最容易被容错系统发现 由于备用电源没有提供足够的电力,死电源会将CPU限制50%; 单个坏盘耗尽了整个RAID卡的性能。 单个部件或节点停止工作很有可能对整个系统的性能造成影响,一个强大的故障停止容错系统应确保故障停止故障不会转换为故障缓慢。 Subhachandra Chandra and Peter M. Chen Computer Science and Engineering Division Department of Electrical Engineering and Computer Science University of Michigan, How Fail-Stop are Faulty Programs? 28th International Symposium on Fault-Tolerant Computing, June 1998
Fail-partial 某些部件陷入故障而不可用,但不会使整个系统停止运转,在开始时,这种故障通常会被固件/软件层掩盖,但当其规模增大时,这种故障屏蔽便会影响整个系统的性能。 实际上硬件和软件都可能出现,这里找的的是软件方面,在分布式系统中单个微服务出现问题可能不会出现明显的问题,但如果放着不管,影响可能会扩大并造成系统性能降低。 在像基于微服务的应用程序这样的分布式系统中,存在部分失败的风险。例如,单个微服务/容器可能会失败,或者可能无法在短时间内响应,或者单个虚拟机或服务器可能会崩溃。由于客户和服务是独立的流程,因此服务可能无法及时响应客户的请求。该服务可能过载并且对请求的响应速度极慢,或者由于网络问题可能无法在短时间内访问。 设计和实施确保容错的技术,在内部微服务之间使用异步通信,减少不同服务之间同步依赖的关系。 .NET microservices - Architecture e-book Handling partial failure
Fail-transient 硬件设备可能会故障但,是驱动程序假设硬件不会故障;所以当硬件设备真的故障的时候,驱动程序检测并且从硬件故障恢复的时候,有很多驱动程序会崩溃或者挂起,这种错误不容易通过压力测试发现,因为是由硬件引起的。 几乎任何硬件,同时当设备包含嵌入式固件或甚至嵌入式操作系统时,任何与软件相关的故障都是可能的 CMOS(互补金属氧化物半导体)内部故障:这些部件可能会经历瞬间位翻转故障,永久性卡住故障,相邻位电匹配时的桥接故障导致的逻辑与和逻辑或门;电磁干扰和辐射可能导致瞬态故障,磨损和老化可能会导致卡住和桥接故障 静态方法检查驱动程序和内核之间的接口中的错误,以确保驱动程序不违反内核编程规则,例如未能释放锁定。但是,这些工具不验证驱动程序是否验证从设备接收到的输入。运行时容忍故障的系统,如SafeDrive和Nooks,这些系统动态检测故障(包括硬件引发的故障)并触发恢复机制,但是部署范围有限 [26] Asim Kadav, Matthew J. Renzelmann, and Michael M. Swift. Tolerating Hardware Device Failures in Software. In Proceedings of the 22nd ACM Symposium on Operating Systems Principles (SOSP), 2009.
Fail-slow 是一种所有硬件都可能出现的故障,其表现为仍在运行的且功能正常的硬件,处于降级模式导致其比预期的性能要慢。内部原因和外部原因都可能导致,也可能转化为其它的故障形式,有可能对整个系统产生级联影响,难以检查出具体原因。 所有硬件都可能出现此类故障,当某些硬件出现其他种类的故障时,也会引起此类故障,甚至引发更大范围的级联影响,导致整个系统陷入故障中 风扇停止工作,使其他风扇以最大速度运行,造成严重振动,从而降低磁盘性能。级联影响:降级的NIC使许多作业锁定健康机器中的任务插槽/容器,因此新作业找不到足够的空闲插槽。不同症状:永久减速,瞬间减速(上下表现),部分减速(子组件退化)和瞬时停止(例如偶尔重新启动) 对于供应商:当错误屏蔽变得更加频繁时,应该抛出更明确的信号,而不是以高开销运行,应收集并报告设备级性能统计信息。对于操作员:39%的根本原因是外部因素,因此故障排除 - 缓慢的硬件必须在线完成。由于级联的根本原因和影响,需要全堆栈监视。对于系统设计人员:虽然软件系统在处理故障停止模型方面是有效的,但是需要更多的研究来设计新的容错系统。 Haryadi S. Gunawi and Riza O. Suminto, University of Chicago; Fail-Slow at Scale: Evidence of Hardware Performance Faults in Large Production Systems;16th USENIX Conference on File and Storage Technologies. February 12–15, 2018 • Oakland, CA, USA
Fail as well as corruption 硬件或软件错误导致的数据损坏,本文主要关注磁盘块损坏,本论文提到了三种数据损坏:校验和不匹配,身份差异和奇偶性不一致。 硬件和软件都会出现错误,主要是涉及到与数据可靠性存储的硬件,这里主要关注的是硬件中的磁盘块写入校验时出现的故障 磁盘块中出现的硬件错误有:磁盘驱动器或磁盘架固件中的错误,内存不足和适配器故障。软件错误未提及 我们发现:近线磁盘(及其适配器)比企业级磁盘驱动器更频繁地发生校验和错配一个数量级,同一磁盘内的校验和不匹配不是独立事件,它们显示高空间和时间局部性,以及同一存储系统中不同磁盘之间的校验和不匹配不是独立的。我们使用这些观察的结论来辅助设计新的容错系统系统 Lakshmi N. Bairavasundaram, Garth R. Goodson, Bianca Schroeder, Andrea C. Arpaci-Dusseau, and Remzi H. Arpaci-Dusseau. An Analysis of Data Corruption in the Storage Stack. In Proceedings of the 6th USENIX Symposium on File and Storage Technologies (FAST), 2008.