第1章绪论
1965年,Intel公司的创始人之一戈登 摩尔(Gordon Moore)预测:半导体集成电路可容纳的晶体管数量(集成度)约每隔18个月会增加一倍,性能也将提升一倍,即著名的摩尔定律。此后,集成电路在半导体技术的推动下,一直按照摩尔定律高速发展,实现了从微米、深亚微米到纳米的飞跃。早在2011年,国际半导体技术蓝图(International Technology Roadmap for Semiconductors,ITRS)机构便做出统计和推测:动态随机存储器(dynamic random access memory,DRAM)、闪存,包括微处理器和高性能专用集成电路的工艺尺寸仍然保持快速缩减的发展趋势,并且在2018年以后,工艺尺寸将达到数纳米左右[1],如图1.1所示。
众所周知,集成电路芯片作为电子系统的核心组成部件,已广泛应用于航空航天、深空探测、空间安全、工业控制、军事、通信等安全关键领域。集成电路制造工艺的不断进步给业界带来了若干益处,诸如芯片集成度和性能的大幅提升、面积和供电电压的不断减小以及功耗的不断降低。但是,在纳米工艺下,集成电路更易受辐射影响产生软错误并造成芯片失效,尤其在强辐射环境下芯片更容易产生软错误而失效,从而引发灾难性事故和巨大经济损失。由于纳米集成电路软错误率的急剧攀升,可靠性问题已成为继性能问题和功耗问题之后的新挑战。据统计,我国于20世纪90年代发射的“风云一号B”气象卫星正常在轨运行165天后,由于遭受到软错误的影响导致姿态失控而过早报废。我国于2013年发射的首辆月球车“玉兔”号控制机构发生失效,其故障成因也难排除空间辐射效应导致的软错误。
研究指出,在地面环境下工作的集成电路仍然会受到软错误的影响。1978年,Intel公司的May等在该公司的2107系列动态随机存储器(DRAM)中首先观测到地面环境下a粒子引发的软错误[2]。次年,IBM公司的Ziegler等首次对由地面环境宇宙射线引发软错误的机理进行了阐述[3]。此后,IBM公司于1986~1987年间也发现了芯片发生异常的情况,并被确认是由于在集成电路生产过程中使用了放射性污染的化学试剂所导致[4]。1995年,Baumann等也发现了类似问题,认为较低能量的大气中子会激活硼-10同位素,从而导致集成电路发生软错误[5]。2004年,美国CYPRESS半导体公司也证实,该公司生产的通信设备由于遭受软错误导致电话呼叫异常[6]。
近年来,在一些顶级的学术会议和期刊刊登了大量研究软错误的文章。《IBM研究与发展学报》早在1996年就出版了软错误专题,在2008年再次出版了软错误专题。在此期间,《IEEE器件与材料可靠性汇刊》也刊登了软错误专题,并且在该专题上Baumann指出,软错误已引起极大关注[7]。当前,软错误依然是集成电路设计者必须关注的问题。Intel、IBM、iROC、Fujitsu等公司,美国国家航空航天局喷气推进实验室、洛斯阿拉莫斯国家实验室等大型科研机构,慕尼黑工业大学、加州大学、密歇根大学、卡内基梅隆大学、谢里夫大学、宾夕法尼亚大学、伊利诺伊大学等高校,以及国内的一些高等院校和科研院所,都对软错误问题进行深入研究。
本章将首先介绍可能导致集成电路发生软错误的自然和人造辐射环境,然后介绍辐射效应、相关重要概念、软错误建模和电子设计自动化(electronicdesign automation,EDA)仿真工具,*后对本章内容进行总结。
1.1辐射环境
导致集成电路发生软错误的辐射环境较多,典型的辐射环境包括自然辐射环境和人造辐射环境。顾名思义,自然辐射环境客观存在,人造辐射环境人为产生。
1.1.1自然辐射环境
常见的自然辐射环境包括空间辐射环境和大气辐射环境。其中,空间辐射环境包括太阳辐射环境、银河宇宙射线和地磁捕获带。
1.空间辐射环境
1)太阳辐射环境
太阳辐射占据空间辐射的主导地位(图1.2)。依照辐射粒子的能量以及通量的不同,将太阳辐射进一步划分为缓变型太阳活动辐射和爆发型太阳活动辐射。在缓变型太阳活动期,日冕不断向外膨胀并且发射出速度为300~900km/s的太阳风。太阳风虽然密度稀薄,但其风速是12级台风风速的上万倍。太阳风的主要成分是质子和电子,并且占到95%以上;作为重离子的主要成分,氦核约占4.8%;其他成分如氧离子、铁离子含量甚少[8]。在太阳低年宁静期,1AU(日心距,天文单位)处的辐射粒子多由通量较高的低能量太阳风以及通量极低的银河宇宙射线构成。在爆发型太阳活动期,能量很高的高能量射线以及带电粒子流被抛向太空。其中高能粒子流的速度高达2000km/s。在爆发型太阳活动高峰期,1AU处的辐射粒子构成主要为高通量、高能量的粒子,此时的通量相对于太阳低年宁静期要高出数个量级。
通常认为太阳活动周期为11年。在太阳活动峰年,日冕物质抛射和耀斑等爆发型太阳活动发生概率极大,但在活动低年发生概率极小。爆发型活动尽管为小概率事件,且总能量小,持续时间短,但功耗极高,此时的辐射粒子通量相比于缓变型活动期要高出数个量级,对航天电子器件的正常工作以及宇航员的身体健康都会带来巨大挑战。在综上所述的两类太阳活动中,伴随着各种离子发射,行星际磁场发射亦不可忽视。在爆发型太阳活动期,太阳发射的行星际磁场强度很高,与地磁场相互作用后,会对低轨运行的卫星甚至地面环境造成严重影响。
2)银河宇宙射线
银河宇宙射线主要源自太阳系以外,此类射线虽通量极小,但能量极高。其成分83%为质子、13%为氦离子、3%为电子、1%为其他高能离子。此类射线的总能量以及通量均极低,但是在太阳活动的低年,通量会有所提高。
到达地球附近的宇宙射线,其强度会随纬度发生变化,这是由于低能量的粒子受到地磁场的作用会向极区集中,称之为纬度效应。纬度效应在高纬区域要比赤道附近大14%左右。此外由于地球自转的作用,从西方来的射线强度要稍大于从东方来的射线强度,称之为东西效应。
3)地磁捕获带
到达地球的行星际磁场会与地球磁场相互作用,从而使背日侧被拉长,而向日侧被压缩。在地磁场的作用下,从太阳射向地球的带电粒子多会偏离原有的运动轨迹,并且会沿着磁尾的方向离开地球,从而使得万物生息。但是如果穿过磁层顶的辐射粒子抵达近地区域,会被地球磁场所捕获,从而形成以地球南北极为轴且环绕地球的内、外捕获带,如图1.3所示。捕获带*早由美国物理学家范艾伦(VanAllen)发现,因此也称之为范艾伦辐射带。内捕获带的壳形空间位于赤道上空的1.2~2.5个地球半径高度,外捕获带的壳形空间位于赤道上空的2.8~12个地球半径高度。捕获带中的粒子主要由质子和电子组成。
由于地磁场强度是不均匀的,因此在南大西洋地区会存在一个异常的区域,即在该区域约200km的高度存在着能量较高的质子。此外,由于磁力线的聚积作用,在两极地区存在较多的高能量粒子[9]。
捕获带内不同粒子的组成和通量在缓变型太阳活动期内是较为稳定的。但是在爆发型太阳活动期内,或者当行星际磁场对地磁场产生干扰,捕获辐射粒子的能量以及通量将急剧攀升,并且捕获带愈发靠近地球,因此会对近地卫星甚至是地面的电气设施造成辐射故障。
2.大气辐射环境
由于受到地磁场和大气层的阻挡,大部分的宇宙射线均不会到达地球,但是有部分能量极高的宇宙射线仍然会到达地球,从而形成大气辐射环境。
到达大气层的宇宙射线通量虽小,但是能量频谱很宽,从电子伏特达到太电子伏特。高能宇宙射线穿过大气层会与大气中的原子核发生作用,并产生大量的二级以及三级粒子流[1'此类次级粒子的能量会逐步发生衰减,与之相伴随的是辐射粒子通量的急剧增加。鉴于大气层本身对宇宙射线和次级辐射粒子流的削弱与吸收作用,近地大气层中的宇宙射线的能量会随着海拔的降低而呈现指数衰减规律。在海平面高度,宇宙射线的通量一般小于360m-2 s-1,并且其主要由95%的中子、少量的质子以及介子构成。
综上所述,在不同的海拔,空间辐射环境中粒子的种类及其能量和通量是不同的。以质子为例,图1.4给出其在空间辐射环境中的分布[11]。由该图可知,随着海拔的提升,质子的能量与通量总体上分别呈现下降与上升的趋势。
1.1.2人造辐射环境
常见的人造辐射环境包括核爆辐射环境和医疗辐射环境。
1.核爆辐射环境
核爆炸会产生十分恶劣的辐射环境。高空核爆炸产生的电磁脉冲影响可达数千公里,而核爆炸时的瞬态辐射剂量率通常要比空间辐射剂量率大近十个数量级。核爆炸产生的Y射线、X射线、中子以及电磁脉冲均具有极高的能量,因此足以致使半导体材料的原子发生电离,对半导体器件的正常工作产生严重干扰。例如,逻辑信号发生错误跳变,存储器内容被清除,甚至导致半导体器件被烧毁。
2.医疗辐射环境
在人造辐射中,医疗辐射*为常见。医学辐射分为电离辐射(如X射线、CT)和非电离辐射(如超声波、磁共振)。电离辐射是指能够使物质发生电离的高频辐射,这种辐射会损伤DNA分子,因此有诱发癌症的可能,但不会助长已经存在的癌症的生长和扩散。非电离辐射是低频辐射,没有足够的能量直接损伤DNA分子,目前还没有这种辐射会诱发癌症的证据。医疗辐射对电子设备有影响,例如,导致普通的手机存储卡发生乱码。
1.2辐射效应
根据导致器件发生损伤的粒子数目的不同,将辐射效应划分为单粒子效应和累积效应。顾名思义,单粒子效应由单个粒子入射电路半导体器件造成,如单粒子瞬态、单粒子翻转等;而累积效应只有随时间推移累积到一定程度才会对器件或集成电路造成影响,如总剂量效应、位移损伤等。
1.2.1单粒子效应
粒子入射半导体材料,等离子体径迹随之产生,并且电荷将在该径迹内运动,导致半导体器件或薄弱环节被激活,从而发生各类单粒子,其效应损伤。单粒子效应的类型繁多,如表1.1所示。其中,一部分会造成硬错误并主要表现为电子元器件的永久性损坏,如单粒子烧毁(SEB)、单粒子位移损伤(SPDD)等;另一部分则会造成软错误,其主要表现为元器件逻辑位的异常跳变、存储元件数据位翻转,而器件本身没有损坏,如SET、SEU、SEMT、SEMU等。
展开