容错设计

芯片错误来源

可测性设计

用于检测芯片制造、运输过程中出现的问题,提高成品率

容错设计

用于处理芯片在应用出现的问题,保证电子系统正确运行
版图级 电路级 系统级

ASIC的容错设计

ASIC(Application-Specific Integrated Circuit,特定应用集成电路)的容错设计是指在集成电路设计过程中,通过特定的技术手段来提高系统在发生故障时仍能保持正常工作的能力。随着ASIC在安全关键应用中的广泛应用,容错设计变得尤为重要。

容错设计的重要性

在安全关键应用中,容错设备变得越来越重要。同时,随着集成电路制造工艺的不断进步(几何尺寸进一步减小),集成电路变得越来越容易受到干扰。容错设计能显著提高ASIC的可靠性,尤其是在复杂环境(如空间辐照环境、汽车环境)中。

主要的容错设计方法

1. 供电系统冗余设计

  • 采用冗余电源设计:使用多个供电模块,通过监测和切换电源模块保证供电可靠性
  • 加入电源储备装置:如超级电容器或备用电池,应对突发断电情况

2. 冗余设计

  • 三模冗余(TMR):将ASIC设计分为三个相同的模块,采用三重容错逻辑进行冗余。即使一个模块发生故障,系统仍能正常工作。
  • 双重模冗余(DMR):能够侦错但不能纠错,是TMR的简化版本
  • 多重配置冗余(MCR):在ASIC中使用多个配置位流,运行时根据故障情况动态切换

3. 自检测与自修复设计

  • 自检测技术:在ASIC中加入自动测试电路,通过监测电路中的故障实现自我诊断
  • 自修复技术:加入自动修复电路,检测故障后自动将故障电路切换到备用线路

4. 故障容错技术

  • 奇偶校验码:在数据传输过程中加入冗余位进行检验和纠错
  • 冗余逻辑:处理故障情况,使用备用电路或备用线路

三模冗余(TMR)技术详解

TMR是一种常用的容错技术,特别适用于空间辐照环境(如星载计算机系统)中对单粒子翻转的防护。其基本思想是:

  • 为待加固模块生成2个相同模块
  • 通过多数表决器输出,即使一个模块发生故障,系统仍能正常工作

TMR的实现方式主要有两种:

  1. 修改网表二次综合:对原设计综合后的门级网表进行修改,把触发器改为三模冗余触发器,再进行二次综合
  2. 建立三模冗余触发器的库单元:直接建立采用三模冗余加固的库单元

容错设计的挑战

虽然容错设计能显著提高ASIC的可靠性,但也面临一些挑战:

  • 面积增加:TMR技术会使芯片面积增大到原来的3倍多
  • 速度下降:三路时钟信号之间的延迟和表决电路在关键路径上引入额外延时
  • 功耗增加:检纠错电路会带来额外的功耗

容错设计的应用场景

  • 核电子系统:在复杂粒子照射环境下,良好的电磁兼容设计是保护系统中电路的重要方法
  • 汽车电子:针对苛刻的汽车环境,特别是对单事件效应(SEEs)的防护
  • 航空航天:星载计算机系统需应对空间辐照环境中的单粒子翻转

总之,ASIC的容错设计是提高系统可靠性和安全性的关键手段,通过合理选择和应用各种容错技术,可以在不显著增加系统复杂度的前提下,大幅提高ASIC在复杂环境下的工作可靠性。


容错设计
https://mingzaitown.github.io/2025/11/02/ASIC/容错设计/
作者
MingZai
发布于
2025年11月3日
许可协议