组织介绍

基于COTS的功能安全计算机

项目介绍

“功能安全(Functional Safety,简称FuSa)”是指避免由系统功能性故障导致的不可接受的风险。功能安全关注系统失效(Failure,故障)后的行为,而不是系统的原有功能或性能。功能安全计算(Functional Safety Computing)是具有功能安全特性的计算,需要同时关注到系统的功能、性能和系统功能性故障导致的不可接受的风险。
功能安全是依赖自动保护的系统或设备整体安全的一部分。该自动保护系统需要正确响应外界对它的输入。它应该对失效有可预测的反应。这包括人为错误、硬件故障和操作/环境压力。安全标准是旨在确保系统或设备满足功能安全需要的需求分析与定义、设计与实现、实施与应用等行为的一套规则规范。例如一个马达中加装温度感测器,若温度超过一定值,即停止马达运转,此机能就属于功能安全。功能安全的基础原则是在军事、核能及太空等产业中制订,之后铁路行业也发展了自己的标准。功能安全标准适用于所有有安全关键需求的产业中。已有数以千计的产品及程序符合IEC EN 61508或其衍生的法规。

基于继电器的控制系统具有安全状态,当系统故障(如停电),受地球引力的作用,继电器会断开,但是现代的计算机系统是基于半导体技术的,没有安全状态,所以在安全攸关场合,不能直接用计算机做控制系统的事情。

安全计算机系统是指在发生故障的情况下,能够实现系统的故障导向安全,即系统的输出在故障状态下,导向安全侧,从而避免造成重大的生命财产损失。安全计算机在航空航天、军事军工、化工能源、轨道交通等安全苛求领域具有广泛的应用,要求计算机系统具有长时间稳定可靠运行的能力和避免发生重大灾害的故障处理能力。由于当前的电子元器件计算机本身并不具有固有的“故障一安全”特性从而导致由其组成的计算机系统在发生故障时的输出结果无法预料,因此必须通过采用特殊的容错结构和专用的操作系统,使系统在计算机故障时处于安全状态。设备故障是不可避免的,要使系统在设备故障时不出现危险的后果,必须采用合适的系统结构和设计方法而实现安全计算机的“故障一安全”特性,最常用的技术就是容错技术。

COTS即Commercial Off-The-Shelf 翻译为“商用现成品或技术”或者“商用货架产品”,指可以采购到的具有开放式标准定义的接口的软件或硬件产品,可以节省成本和时间。

硬件上,大量采用COTS作为安全计算机的基础,是降低功能安全计算机研发制造成本、保证供应链安全的重要手段。软件上,通过与开源社区合作,建立“开源工业计算机系统联盟”,借助开源力量,在一定程度上实现研发资源的共享,降低整个社会的功能计算机研发、升级成本,是本项目的目标。

背景知识

  • functional safety concept
    功能安全概念 指 为了实现安全目标,定义功能安全要求及相关配置信息,并将要求分配到架构要素上,以及定义要素之间的必要交互。如:
    • 能够进行故障检测,降低失效的可能性
    • 使潜在危险状态过渡到安全状态
    • 故障容错机制(不违背安全目标,使车辆在一个安全状态下)
    • 故障检测报警
  • 故障-错误-失效:故障(Fault,可引起要素或相关项失效的异常情况),错误(Error,计算的、观测的、测量的值或条件与真实的、规定的、理论上正确的值或条件之间的差异)和失效(Failure,功能的丧失或者终止)的大概关系是:故障可引起错误,错误再导致失效。
  • 安全状态(Safe State)
    当前系统不会造成危害的状态叫安全状态。举个例子:如果枪可能发生走火,那么枪里没有弹药就是一个安全状态。类比到汽车电子电气系统上,供电的断开、驱动级芯片的关闭、机械的锁止等都可能是安全状态的表现。需要注意的是,在系统设计中,故障降级往往是普遍采用的一种方式,但故障降级不一定就是安全状态,比如一辆自动驾驶汽车的一个核心传感器失效了,车辆从原来的80km/h降至20km/h运行,车辆的功能受到了限制,但20km/h仍然具有出现汽车事故的可能性,那么,这种状态就不是一个安全状态。
    • 轨道交通故障——安全原则:信号设备(系统)内部发生故障时,该设备能够自动进入安全状态,即给出不危及行车安全的状态或信号。如:
      +- 列车定位故障——占用
      +- 空间防护设备故障——不能向该空间发车
      +- 信号机故障——信号降级显示
  • 功能安全类型(EN50129定义了三种失效——安全机制的实现方式)
    • 固有安全,内在(或固有)式失效——安全(Inherent Fail-Safety)如继电器,在失电的情况下它固定处于某种状态。
    • 组合安全,组合式失效——安全(Composite Fail-Safety)是欧洲铁路安全标准EN50129:2003提出的一种实现故障-安全设计原则的安全设计方法。目前,大多数安全计算机平台中采用了2oo2技术,这是典型的组合安全设计。随着安全应用逻辑运算对系统资源要求的不断提高,既有的安全计算机平台的性能逐渐不能承载新的安全运算业务。提出一种类似“远程过程调用的并行处理”方法,采用外部扩充的高性能运算单元进行并行运算,既有的安全运算单元进行安全表决,从而实现高性能的组合安全设计。 常用的手段如:三取二。
    • 反应式安全,反应式失效——安全(Reactive Fail-Safety)检查和响应系统中出现的威胁,有效反应式安全措施:漏洞评估、灾难恢复计划等。常用的手段如:watchdog。
  • 电子系统失效的分类
    电子系统失效的分类分成系统性失效和随机失效两大类。其中系统性失效具体指人为的失效。它主要由严格的开发流程和独立的评估体系来管理和防止。而随机失效指的是硬件中电子部件特别是芯片在生命周期中无法预测的失效。芯片的随机失效在ISO26262标准中主要依托IEC62380和西门子SN29500这两个参考标准用FIT来量化。特别是数字芯片当其使用的逻辑门超过5千万级别、RAM超过2G或Flash超过1G时,失效率将达到200FIT以上。因此需要通过安全机制去检测故障和满足量化安全指标的难度大大提高。

项目网址:https://edu.gitee.com/peixilong/projects/313416/overview

联系我们

email: pei_xilong@tongji.edu.cn

裴喜龙 / Xilong Pei (Mr.)

同济大学电子与信息工程学院 / College of Electronics and Information Engineering, Tongji University
上海市嘉定区曹安公路4800号 / 4800 Cao'an Highway, Shanghai 201804, P. R. China

成就
1
Star
469
Fork
成员(13)
1855899 xilongpei 1627538227
XilongPei
刘慎行
qipengfei
xiao116
MrGreenhard
LanMeng
xuzhongwei
12699361 tjuzh 1693014904
digitzh
李文清
张万里
北原春希
安洪剑
Laiping_Sun

搜索帮助