电台小说网

电台小说网>ai芯片现状 > 第 3 节 新型非易失性存储器推动了模拟计算(第1页)

第 3 节 新型非易失性存储器推动了模拟计算(第1页)

()

从20世纪90年代起,也有一些大学的研究人员以模拟计算的形式,使用交叉开关阵列(即用晶体管组成纵横交叉棒的结构)来完成矢量矩阵乘法(Vector-Matrix-Multiply,VMM),而VMM正是DNN的关键运算之一。但是这些工作只是在实验室里作为小规模的电路试验进行的,用芯片实现需要很大的面积,也不具备很好的可扩展性。因此,不能用于规模较大的神经网络中的有效的乘积累加运算。

随着基于忆阻器的RRAM异军突起,一种基于交叉开关阵列的新型模拟计算器件出现了。RRAM的模拟行为证明了它是模拟计算最好的基本器件之一。RRAM的出现也是模拟计算这个被人遗忘的技术近年来又重新受到重视的主要原因之一。在新型非易失性存储器(NVM)中,除RRAM之外,其他类型的存储器如相变存储器(PCM)、磁性存储器(MagneticRandomAccessMemory,MRAM)和铁电存储器(FeRAM)等,都可以通过施加电脉冲,显示出多级可编程性。此功能非常适合基于模拟计算的深度学习加速器的基本需求。

用阻变存储器实现模拟计算

RRAM是新型NVM器件中相对较为成熟的候选技术之一,一些厂家已经可以提供用CMOS技术制造的存储阵列(使用小于10nm的工艺节点,高密度,开关速度可以达到小于10ns)。丝状RRAM具有很有潜质的特性,如非常低的编程功耗、纳秒级的快速开关及相对较强的耐久性。不过,RRAM的电阻值范围通常不大于最低值的50倍,这与其固有不一致性一起,对在低编程电流下实现大量中间电平构成了限制。在交叉开关阵列中,交叉开关通常位于字线(WordLine,WL)和位线(BitLine,BL)之间的交点处。当存储器件与选择器件(如二极管、选择器或晶体管)串联时,交叉开关处于有源状态;否则,交叉开关是无源的。图6.4为使用忆阻器执行点积计算的原理。它将一个二维矩阵映射到具有与抽象数学对象相同的行数和列数的物理阵列。每条位线通过一个RRAM交叉开关连接到每条字线。

令R和G分别是一个交叉开关的电阻值和电导值,其中G=1R。

如果将一列中的交叉开关编程,使其电导值为G?1?,G?2?,…,G?n?,再把电压V?1?,V?2?,…,V?n?分别施加到这n个行时,根据欧姆定律,从交叉开关流到位线的电流值为I?i?=V?i?G?i?。一旦按照欧姆定律执行了乘法运算,按照基尔霍夫电流定律沿着列线求和就可以实现累加运算:根据基尔霍夫定律,来自位线的总电流值是流过每一列的电流值之和,如图6.4所示。总电流值I是每一行输入电压值V和一列中交叉开关电导值G的点积,即I=V·G。就神经网络而言,神经元的突触权重就是RRAM交叉开关的电导值,表示该行与列之间的连接强度(即权重);总电流值就是一个神经网络中神经元的输出。如果现在进一步假设可以同时改变连接强度G,则权重更新操作也可以映射到单个操作中。

图6.4使用忆阻器执行点积计算的原理

a)将交叉开关阵列用于矢量矩阵乘积b)积分器

对于反向传播,可以使用转置矩阵进行矩阵乘法,简单地交换行和列,包括外围电路的功能。而对于无法在单个交叉开关阵列中拟合的大型矩阵,输入和输出将被划分并分组为多个阵列。每个阵列的输出是部分和,将其通过水平字线(WL)采集并通过垂直位线(BL)求和,以生成实际结果。

数字信号输入通过DAC将长度为n的矢量转换为应用于行的时间或电压编码信号,也有的使用「位串行」编码或概率编码。在输出端,通过对馈入到一个放大器电路的电容器C充电,在每列上对得到的列电流进行积分(见图6.4b)。该电路产生适合进一步处理的输出电压V?o?u?t?。下一步是计算激活函数,这可以直接在模拟域中完成。

由于交叉开关是以模拟信号来执行其计算,因此要求将VMM输出转换为数字形式,然后将其传输到神经网络的下一层或CPU。在保持激活值适中至高精度的同时,ADC可以轻松控制电路的能耗、面积和等待时间。因此,必须谨慎选择ADC架构及其分辨率,以保持使用交叉开关进行模拟计算的固有优势。由于处理每个神经元层时需要高度并行化,ADC的运行速度必须非常快,从而需要大量功耗和芯片面积。

为了减少在ADC和DAC上花费的能耗,最近有研究人员开发了一种新的基于RRAM的模拟计算AI芯片,称为TIMELY?[109]?。它在RRAM的交叉棒里包含了很多个模拟本地缓冲器,并使用一种时域接口,从而大大减少了每个DAC和ADC转换的能量及转换次数。另外,TIMELY还采用了一次性输入读取映射方法,以进一步减少输入访问的能量和DAC转换的次数。

用相变存储器实现模拟计算

相变存储器(PCM)通过将硫化物层(如锗锑碲合金,Ge?2?Sb?2?Te?5?)的材料特性从低电导率的非晶态转变为高电导率的结晶相,创建不同的电导水平。PCM中相变材料被顶部和底部电极夹在中间,目前存在不同的架构,但是它们都依赖硫化物材料的受控加热。从低电导状态(非晶态)到高电导状态(结晶相)的转变是由SET脉冲引起的,该SET脉冲会产生足够的焦耳热,使硫化物材料结晶,同时温度保持在熔点以下。SET过渡是渐进的,因为结晶意味着原子晶格的局部重排。另一方面,RESET为低电导状态,需要熔化硫化物材料,并且该过程是突然的。这是因为需要熔化整个区域,然后将其淬灭为非晶态。SET和RESET过程都可以由电脉冲驱动,从而可以为神经网络训练实现模拟加速。

使用PCM的挑战是实现和保持分类精度。由于PCM技术本质上是模拟技术,因此器件的可变性及读写电导噪声会限制其计算精度。为了解决这个问题,需要找到一种训练神经网络的方法,以便将经过数字训练的权重转移到PCM上而不会导致精度的明显降低。维奈·乔希(VinayJoshi)等人找到了一种开创性的方法?[110]?:在DNN训练过程中,向突触权重注入与器件噪声相当的噪声来提高模拟计算硬件的可靠性和鲁棒性。训练过程中注入的噪声是从一次性的全面硬件特征中粗略估计的,组合了读取和写入噪声。使用这种方法,PCM的分类精度保持率有了显著提高。

权重更新的挑战

在基于NVM的神经网络计算中,权重更新过程要复杂得多,它面临的挑战是在所有单独的交叉开关单元上更改本地执行权重。这需要交叉开关的电阻响应因激励而改变。NVM的非易失性意味着交叉开关单元的电导(即权重值)在相当长的时间内持续存在,而不出现漂移(见图6.5a)。因此,可用这样的方式存储少量数据,从而可以针对每个单元单独地恢复所存储的信息。对于神经网络应用,必须可访问每个器件的更多状态,以便在训练期间实现增量式权重更改。一般来说,实现神经网络的训练对器件的要求非常高,所以非常困难;而对于推理来说,要求则放低了很多——不需要对称切换,并且可以大大减少电导状态数。

图6.5NVM的理想曲线和实际曲线

a)读取周期b)写入周期

NVM一般用作数字存储器件

()

。这时,高电导或SET状态可以表示为数字「1」,而低电导或RESET状态则可以表示为「0」。在此类存储单元的交叉开关阵列中,访问器件可用以下方式对单个存储单元(即交叉开关)进行寻址:激活字线和位线,用以读取器件电导来检索出存储的数据,以及用于对器件电导编程以更新存储的数值。

但是,与作为存储的应用不同,NVM在应用于神经网络时,不会一次仅激活一行,通过每条列线末端的电流来检测出数据,而是同时激活所有行,并允许这些电流在整个列线上聚合。这也是模拟计算的最大好处之一。如果小心地将每个上游神经元激活,编码为施加到它所在行的电压,根据欧姆定律,每个存储的电导就是神经元激活x与权重w的乘积。理想情况下,响应是线性的(与权重值无关)和对称的(与激活值的正负无关)?[111]?。

权重值可能是正,也可能是负,在网络训练时一会儿是正,一会儿是负。但是电导总是正的。为了能够使用仅为正的电导G对带正负符号的权重w进行编码,通常在一个交叉开关上采用一对电导之间的差,即w=G?+?-G?-?。在某些情况下,可以使用专门的参考电流代替G?-?。

如果使用这种电导差来配置,要求开关切换时有很高的线性度,以确保对称的差分信号。器件电导应随着某个极性的电压脉冲而上升,并随着相反极性的电压脉冲而下降相同的幅度(见图6.5b)。通常,NVM并不表现出这种对称切换行为,而表现出电导的高度非线性演变,该变化是连续施加的脉冲数的函数。这会导致权重更新时出现重大错误。此外,这种非线性电导变化使信号和噪声的分离变得相当困难。

神经元激活输入可以用电压值大小来表示,也可以使用电压持续时间的长短来表示。前者对于NVM的I-V特性的线性度有非常高的要求,并且如果同时激活所有行线,可能会出现过大的瞬时功率,而后者可以消除这些缺点。这种方法也不需要任何DAC,并且NVM可以是非阻性的,因为将仅使用一个读取电压值。

NVM器件的材料研究和创新

利用模拟器件还是存在一定风险,如器件材料较难保证模拟计算的精度。因此,为了挖掘模拟计算的性能潜力,需要进一步的创新,必须找到更理想的材料。还有,模拟计算本质上是带噪声的,电脉冲的不断输入也会造成噪声或电压、电流的波动。只有在AI模型中引入近似计算方法(见第8章),把精度适当降低,使系统具有一定的容错性,才能使模拟计算成为可能。如果可以容忍噪声,则可以在NVM的阵列上以恒定的时间并行执行用于神经网络的矩阵运算,权重不需要在存储器和处理单元之间来回移动。

NVM把交叉开关阵列当作突触,同时用于存储神经网络权重。但是,当今的NVM主要用于存储器应用,并不具有开关对称性或类似电阻器的模拟多态状态,无法很好地满足AI模拟计算的潜力。因此,IBM的研究人员应用了一种称为高斯过程回归(GaussProcessRegression,GPR)的机器学习算法来提取NVM处理单元的关键器件参数,进行模拟计算?[112,113]?。具体来说,他们通过基于HfO?2?的阻变存储器和基于GeSbTe的相变存储器的非线性电导变化,从模拟存储器件中精确分离出信号和噪声。与传统的存储器应用不同,他们利用开关介质的连续变化(如RRAM的丝状配置、PCM的结晶区体积)来实现电导增量变化。控制和调节电导是AI模拟加速器的关键要求之一。

RRAM的基本结构是夹在金属电极之间的金属氧化物膜。顶部触点控制氧空位的注入,形成由氧化物组成的导电丝。RRAM的电导率取决于导电丝与底部触点的接近程度。细丝的形成(SET)和熔解(RESET)是可逆的,增大细丝尺寸就可提高电导率,而缩小就可降低电导率,从而可以在两个方向上改变电导。这种增量切换由纳秒级的电脉冲控制,如图6.6所示。通过利用RRAM丝状配置的受控变化(见图6.6a),或者PCM材料响应电脉冲所产生的结晶增量(见图6.6b),可以将多个状态(神经网络权重)存储在基于NVM的交叉开关中。

图6.6用于在交叉开关阵列中存储神经网络权重的NVM材料(SET=1,RESET=0)?[114]

尽管细丝尺寸的增大或减小都可以显示出电导率的逐渐变化,但是外界观察到的变化并不对称。这种电导漂移造成的不对称性和不一致性将直接影响所存储权重的准确性和稳定性。大多数RRAM需要一个导电丝的形成过程。该形成过程将确定RRAM的基本电阻值,而在一个交叉开关上的电导状态数可以达到大约1000个。

电导的变化取决于原子级的结构变化,因此本质上是随机的。控制细丝的形成和溶解及做到对称的SET和RESET行为,是RRAM的主要挑战。目前,仍缺乏理想的可用于深度学习训练的RRAM。如果能够找到一种材料组合,具有可控的细丝结构,并且不需要当前器件所需的有源电流限制,则可以提高RRAM的稳定性。

在模拟NVM的开发过程中,材料研究是最基本的根基。计算能力与器件的物理属性绑定在一起,成为一门新的学科,称为「AI物理学」或「AI材料学」,这是推动人工智能硬件创新的必要条件。我们一方面需要研究材料的物理属性如何与神经网络的芯片实现最佳匹配,另一方面需要研究如何使用AI来找到和筛选出能在AI芯片中使用的最佳材料。?备案号:YXX1lAZwkOvHx1Qx6BFP5MA

请勿开启浏览器阅读模式,否则将导致章节内容缺失及无法阅读下一章。

相邻推荐:论文查重降重攻略:学术论文重复问题剖析  二级建造师考试全攻略:从行业政策、备考规划到注册执业  杀死女神  繁华之间:名利场上的一夜沉浮  忘记我姓名  2021 智能手机选购指南:看懂市场,做聪明的购机人  霍总,夫人的十个哥哥又来催离婚了  未来旅行家:跨越时空的科幻故事集  全世界都在砸钱养我  古风甜饼,一生一世的赏味期限  大话西方艺术史:艺术原来这么有趣  我家院子可以去大明  怪谈文学奖:现代都市恐怖病系列  邂逅「诗和远方」:打开浪漫诗人的诗词世界  就怕小偷有文化:金融诈骗、空中抢劫与艺术品犯罪  有仙气:听说有神动凡心  2021 平板电脑推荐与选购:高效选品方法论  仙君他貌美如花  白色球鞋:他爱你的一百件小事  九秘神针:君临天下  

已完结热门小说推荐

最新标签