作者:Bill Schweber
电阻温度检测器 (RTD) 由传感器及其模拟前端 (AFE) 信号调节电路组成,应用广泛、准确而可靠。然而,对于任务关键型和高可靠性应用,通常需要通过 Route 1S 或 Route 2S 元器件认证流程来设计和确保实现功能安全系统。
由于必须审查系统中所有元器件的潜在故障模式和机理,因此对系统进行功能安全认证是一个复杂的过程。诊断故障的方法有很多种,使用已通过认证的元器件可减轻工作量并简化认证过程。
请注意,“可靠性”与功能安全相关,但并不相同。最简单地说,“可靠”是指设计和实现符合规格要求,不会出现问题或故障,而“功能安全”则是指设计必须能检测到任何故障。对于关键应用而言,可靠性和功能安全都必不可少。
本文将结合功能安全认证介绍 RTD 及其信号调节电路的基础知识,然后讨论不同等级的可靠性和故障认证,以及通过上述两种途径达到这些要求所需的条件。我们将使用两款多通道 RTD AFE IC(Analog Devices 的一对 AD7124 器件)以及相关的评估板配置来说明要点。
功能安全的作用
功能安全的作用是通过正确实施一个或多个自动保护/安全功能,使人免于遭受无法承受的伤害或健康损害风险。如果出现故障,功能安全将确保产品、设备或系统继续安全运行。各种工业、商业,甚至一些消费应用都需要功能安全,例如:
· 自主驾驶车辆
· 机器安全和机器人
· 工业控制系统 (ICS)
· 智能家居消费产品
· 智能工厂和供应链
· 安全仪表系统和危险场所控制系统
例如,在功能安全设计中,即使系统中的其他组件失效,主电源开关的功能仍可支持关闭电源(图 1)。
图 1:在功能安全系统中,此开关必须毫无疑问地执行其设计功能。(图片来源:Pilla via City Electric Supply Co.)
RTD 基础知识
为什么要关注温度和功能安全?一个很好的理由是,温度是最常测量的物理参数。温度常与安全或关键应用有关,并且有各种传感器支持,其中包括 RTD,其概念较为简单:利用镍、铜、铂等金属的已知且可重复的电阻温度系数 (TCR)。0°C 时电阻值为 100 Ω 和 1000 Ω 的铂 RTD 应用最为广泛,可在 -200°C 至 +850°C 范围内使用。
在此温度范围内,这些 RTD 的电阻与温度之间具有高度线性的关系;对于超高精度场景,可以应用校正和补偿表及系数。标称电阻为 100 Ω 的铂 RTD(命名为 PT100)在 -200°C 时的典型电阻为 18 Ω,在 +850°C 时的典型电阻为 390.4 Ω。
使用 RTD 需要用已知电流激励,该电流通常保持在 1 mA 左右,以尽量减少自发热。根据 RTD 的标称电阻,也可使用其他电流值。
RTD 两端的电压降由 AFE 同步测量,该 AFE 包括一个可编程增益放大器 (PGA),并且在几乎所有情况下,还包括模数转换器 (ADC) 与微控制器单元 (MCU) 的组合(图 2)。
图 2:使用 RTD 测量温度,需要驱动一个已知电流通过 RTD,测量其两端的电压降,然后应用欧姆定律。(图片来源:Digi-Key)
这种基本方案的电路拓扑结构与使用检测电阻来测定通过负载的电流相同,但在这里,已知变量与未知变量发生互换。对于电流感测,电阻是已知的,而电流是未知的,因此计算公式为 I = V/R。对于 RTD,电流是已知的,但电阻不是,因此计算公式为 R = V/I。
需要使用 PGA 来保持信号完整性并最大限度地提高动态范围,因为 RTD 两端的电压电平从几十毫伏到几百毫伏不等,具体取决于 RTD 类型和温度。
激励源、RTD 和 PGA 之间的物理连接可以是双线、三线或四线接口。虽然原则上两根引线就足够了,但存在与连接引线中的 IR 压降相关的问题以及其他伪影。在更先进的开尔文连接中,使用三线和四线拓扑可以获得更加精确和一致的性能,不过这会增加布线成本(图 3)。
图 3:仅通过两根导线就可驱动和检测 RTD(左),但使用三根引线(中),甚至四根引线(右,开尔文连接)可以消除引线造成的各种误差源。(图片来源:Analog Devices)
从术语和标准入手
同许多专业领域一样,功能安全也有许多独特的术语、数据集和缩写词,它们在相关讨论中被广泛使用。其中包括:
· 失效率 (FIT):设备运行 10 亿 (109) 小时期间预计发生的失效次数。
· 故障模式和影响分析 (FMEA):尽可能多地审查元器件、组件和子系统,以确定系统中潜在的故障模式及其原因和影响的过程。
· 故障模式影响和诊断分析 (FMEDA):用于获得子系统/产品级故障率、故障模式和诊断能力的系统分析技术。
为了进行全面分析,需要 FIT 数据以及系统中不同元器件的故障模式影响和诊断分析 (FMEDA)。FMEA 只提供定性信息,而 FMEDA 同时提供定性和定量信息,允许用户衡量故障模式的关键程度,并根据重要性对其进行排序。FMEDA 增加了风险、故障模式、影响和诊断分析以及可靠性信息。
· 安全完整性等级 (SIL):与 SIL 相关的离散完整性等级有四个:SIL 1、SIL 2、SIL 3 和 SIL 4。SIL 等级越高,关联的安全等级就越高,系统无法正常运行的概率就越低。
SIL 2 等级表明,可以诊断出系统内 90% 以上的故障。要对设计进行认证,系统设计人员必须向认证机构提供证据,说明潜在的故障,这些故障是安全故障还是危险故障,以及如何诊断故障。
· IEC 61508 标准正式名称为“电气/电子/可编程电子安全相关系统的功能安全”(非正式名称为“电子功能安全”),是功能安全设计的规范。其规定了开发 SIL 认证元器件所需的设计流程。从概念和定义到设计、布局、制造、装配和测试,每个步骤都需要生成文档。
这一过程被称为 Route 1S,非常复杂。不过,除了 Route 1S 之外,还有一种替代流程,即 Route 2S。这是一种“经使用验证”途径,适用于大量产品已设计成最终产品和系统,并在现场使用,累积运行数千小时的情况。
在 Route 2S 流程下,仍可通过向认证机构提供以下证据而获得产品认证:
· 现场使用的产品数量
· 现场任何退货的分析,详细说明退货非由元器件本身的故障造成
· 安全规格书,详细介绍产品提供的诊断功能和覆盖范围
· 引脚和芯片 FMEDA
· 合并 RTD 接口与 SIL Route 2S 流程
系统认证是一个漫长的过程,因为必须审查系统中所有元器件的潜在故障机理,并且诊断故障的方法多种多样。使用已通过认证的元器件可减少所需的工作量,缩短认证过程。
高度集成、成熟的 RTD 接口元器件是简化 Route 2S 认证的关键,因为其定义了完整的解决方案包,因而可以通过与现场使用和故障相关的数据对其进行全面鉴定。这与使用多个较小的构建块 IC 不同,后者必须针对所使用的特定互连配置分析其各种接口和相互作用。
其中一个例子是四通道 AD7124-4(图 4)和类似的八通道 AD7124-8(下文在讨论它们的许多共同特性时,将其统称为“AD7124”)。这些元器件具有嵌入式自检和诊断特性,而且在现场“表现良好”,因此非常适合 Route 2S 流程。
图 4:四通道 AD7124-4 是功能完整的 RTD 传感器至处理器信号链。(图片来源:Analog Devices)
这些 IC 是完整的多通道 RTD 测量解决方案,包含从传感器到数字化输出以及与相关微控制器通信所需的全部构件。其中包括:多通道多路复用器、PGA、24 位三角积分 ADC、RTD 电流源、用于内部操作的电压基准、系统时钟、模拟和数字滤波,以及用于 SPI、QSPI、MICROWIRE 和 DSP 兼容互连的三线或四线串行接口。
但是,这些功能的存在本身并不能为 SIL Route 2S 资格认证提供基础。为了实现功能安全设计,构成 RTD 系统的许多功能需要一系列的嵌入式诊断程序。AD7124 中的多种嵌入式诊断程序最大程度地降低了设计复杂性,缩短了设计时间,并且无需复制信号链以实现诊断覆盖。
这些诊断程序包括但不限于:监测电源、基准电压和模拟输入;检测 RTD 开路;检查转换和校准性能;检查信号链的功能;监测读/写功能;以及监测寄存器内容。
这些“高级”说明如何转化为必要的片上诊断?答案涉及许多方面,包括:
SPI 诊断:每次写入 AD7124 时,处理器都会生成一个循环冗余校验 (CRC) 值,该值附加到发送至 ADC 的信息中。然后,ADC 根据接收到的信息生成自己的 CRC 值,并将其与从处理器接收到的 CRC 值进行比较。如果两个值一致,则信息完好无损,将被写入相关的片上寄存器。
如果值不一致,则意味着信息在传输过程中发生了损坏,IC 会设置一个错误标志,表明发生了数据损坏。AD7124 还具有自我保护功能,不会将损坏的信息写入寄存器。
系统处理器从 AD7124 读取信息时,也会使用类似的 CRC 过程。最后,接口还会对时钟脉冲进行计数,以确保每个读取或写入数据帧中只有 8 个这样的脉冲,从而确保不会出现时钟毛刺。
存储器检查:当上电时或片上寄存器发生变化时(如更改增益时),也会使用 CRC 验证寄存器内容。此外,还会定期执行 CRC 过程,以确保没有存储器位因噪声或其他原因而“翻转”。如果发生了变化,并且处理器随后被标记为寄存器设置已损坏,则可以复位 ADC 并重新加载寄存器。
信号链检查:所有关键静态电压都可以通过 ADC 检查,包括电源轨、低压差 (LDO) 稳压器输出和基准电压;还可以检查 LDO 两端是否存在外部电容器。此外,还可以对 ADC 输入端施加一个已知电压,以检查 ADC 和增益功能设置。另外,可以在模拟输入上注入已知电流,以检查开路或短路 RTD。
转换和校准:持续检查 ADC 转换的结果,了解其是否为全零值或满刻度值,这两种情况都表示存在问题。监测来自 ADC 内核调制器的比特流,确保其未饱和,如果出现饱和(即调制器连续产生 20 个 1 或 0),则会设置一个错误标志。
主时钟频率:该时钟频率不仅控制转换速率,还决定 50/60 Hz 数字滤波器的陷波频率。AD7124 的内部寄存器允许协处理器计时,从而检查主时钟的精度。
其他特性:AD7124 包括一个温度传感器,也可用来监测芯片温度。两个版本都有 4 kV 静电放电 (ESD) 额定值,性能稳健,并且均采用 5 × 5 mm LFCSP 封装,适用于本质安全设计。
由于 AD7124-4 和 AD7124-8 内部复杂精密,并具有高级自检特性,因此拥有对 IC 进行测试和评估的一种方法也合情合理。
为此,Analog Devices 提供了一对互连板:用于 AD7124-4 的 EVAL-AD7124-4SDZ 评估板(图 5)和配套的 EVAL-SDP-CB1Z SDP(系统演示平台)/接口板(图 6)。前者专用于 AD7124-4,与后者配合使用,后者通过 USB 链路与用户的 PC 和评估软件进行通信。
图 5:EVAL-AD7124-4SDZ 是 AD7124-4 的评估板。(图片来源:Analog Devices)
图 6:EVAL-SDP-CB1Z/接口板是 EVAL-AD7124-4SDZ 评估板的配套产品,提供与主机 PC 的 USB 连接。(图片来源:Analog Devices)
AD7124-4 EVAL+ 软件支持该评估配置,可全面配置 AD7124-4 器件寄存器功能并对 IC 进行测试。该软件还以波形图、直方图和相关噪声分析的形式提供时域分析,用于评估 ADC 性能。
向功能安全设计过渡
必须认识到,AD7124-4 和 AD7124-8 没有 SIL 等级,这意味着二者的设计和开发均未遵照 IEC 61508 标准定义的开发准则。但是,通过了解最终应用并适当使用各种诊断,可以评估它们是否可在 SIL 等级设计中使用。
Route 1S 认证途径在分析和处理故障时需要考虑多个因素,这些故障可能是系统性的或随机的。系统性故障由设计或制造缺陷造成,例如外部中断引脚缺乏滤波导致的噪声中断,或信号裕量不足等。而随机故障是由于腐蚀、热应力或磨损等物理原因造成的。
一个重要问题是所谓“未检测到的危险故障”,有多种技术可以解决这个问题。为了尽量减少随机故障,设计人员会使用三种策略中的一种或全部:
· 更可靠、应力更小的元器件。
· 依赖内置检测机制的诊断,这些机制通过硬件或软件实现。
· 通过冗余电路实现容错。增加冗余路径可以使系统不受单一故障影响。这就是所谓的硬件容错 1 (HFT 1) 系统,即一个故障不会导致系统失效。
用于了解 SIL 等级覆盖率的一种工具是罗列安全失效比例(SFF,诊断覆盖率)和硬件容错性(冗余度)的矩阵(图 7)。
图 7:此矩阵描述了安全失效比例 (SFF) 与硬件容错性 (HFT) 的关系,以供深入了解 SIL 覆盖范围。(图片来源:Analog Devices)
行显示诊断覆盖率,列显示硬件容错性。HFT 为 0 意味着,如果系统出现一个故障,安全功能就会丧失。诊断级别越高,所需的系统冗余量就越少,或者在冗余量相同的情况下,解决方案的 SIL 等级就越高(沿着矩阵下移)。
请注意,根据 IEC 61508 标准,使用这些器件的典型温度应用的 FMEDA 显示安全失效比例 (SFF) 大于 90%。通常需要两个传统 ADC 以便通过冗余提供此覆盖率,但 AD4172 只需要一个 ADC,因此可大幅节省物料清单 (BOM) 成本和电路板空间。
SIL 等级设计的文件
获得 Route 1S 认证需要大量文件。必要的源文件包括:
· 安全规格书(SIL 等级元器件的安全手册)
· 引脚 FMEDA 和芯片 FMEDA,以及二者的故障模式、影响和分析
· 附件 F 检查清单(由 IEC 61508 定义)
反过来,这些文件又有多种来源(图 8):
· 规格书中的诊断数据反映元器件提供的所有诊断特性。
· 设计数据指的是内部数据。例如,芯片面积和元器件每个内部模块的影响。
· FIT 以及各组件的失效率可从数据手册获取。
· 对于无法使用设计和诊断数据来分析的模块,则进行故障插入测试。这些测试根据应用要求进行规划,故障插入测试的结果用于强化 FMEDA 和 FMEA 文件。
图 8:汇总和提取各种文件来源,以提供 SIL 认证所需的完整信息包。(图片来源:Analog Devices)
更详细地探究细节:
· 安全手册或安全规格书使用所有汇编的信息来提供必要的要求,以支持 AD7124-4 或 AD7124-8 的集成。其整理了来自各种文件和数据集的所有诊断和分析。
· AD7124-4 和 AD7124-8 的芯片 FMEDA 分析应用原理图中的主要模块,确定故障模式和影响,并检查用于特定安全功能的诊断和分析。例如,对时钟模块的分析显示了故障模式、每种模式对输出的影响、诊断覆盖率以及影响分析(图 9)。
图 9:此表定义了主时钟模块的故障模式、影响、诊断和分析。(图片来源:Analog Devices)
该芯片 FMEDA 可定量显示安全故障、已检测到的危险故障和未检测到的危险故障的故障率。所有这些都用于计算 SFF。
引脚 FDEMA 从不同角度看待故障。其分析了 AD7124-4 和 AD7124-8 引脚上的各类故障及其对 RTD 应用的影响。它针对每个引脚进行分析,并描述引脚开路、与电源/接地短路或与相邻引脚短路等情况的结果。
附件 F 检查清单是一份避免系统性故障的设计措施检查清单。包括:
· 产品概览
· 应用信息
· 安全理念
· 寿命预测
· FIT
· FMEDA 计算 - SFF 和 DC
· 硬件安全机制
· 诊断说明
· EMC 鲁棒性
· 冗余配置运行
· 附件和文件清单
总之,通过 Route 1S 对新导入的元器件进行功能安全认证是一项漫长、复杂、耗时、紧张的综合性工作。幸运的是,如上所述,Route 2S 对某些元器件而言是一种可行的替代方法。
Route 2S:替代途径
Route 2S 适用于有现场应用经验和数据的已发布元器件,称为“经使用验证”的元器件。其基于对器件的客户退货情况和发货数量的分析,不适用于只有很少或根本没有实际使用记录的新元器件。
Route 2S 支持 SIL 认证,就像元器件根据 IEC 61508 标准进行了全面分析一样。如果模块和系统设计人员过去成功使用过相关 IC,并知道了现场的故障率,就可以使用它。嵌入式测试和验证特性以及性能数据,使 AD7214-4 和 AD7214-8 成为 Route 2S 的理想候选器件。
使用 Route 2S 需要详细的、具有统计意义的现场退货和故障数据。与电路板或模块供应商相比,IC 供应商满足这一要求要难得多。原因是后者一般对最终应用情况了解不够,或者不知道有多少比例的现场故障单元被退回给他们进行分析。
总结
新产品功能安全认证的 Route 1S 路径非常缜密、全面和详细。其在技术上也很有挑战性,而且非常耗时。相比之下,Route 2S 流程允许根据现场经验、故障和分析数据对已发布产品进行认证。AD7214-4 和 AD7214-8 RTD 接口 IC 具有所需的历史记录,因此支持这种非常有用的途径。同样重要的是,这些 IC 嵌入了许多诊断和自检功能及特性,因而是此类认证的合适候选产品。