电台小说网

电台小说网>ai芯片发展趋势 > 第 4 节 模拟计算的应用范围及其他实现方法(第1页)

第 4 节 模拟计算的应用范围及其他实现方法(第1页)

()

CNN对图像处理等应用非常有用,但对其他应用如机器翻译、字幕和其他自然语言处理则不太理想。此类应用使用LSTM和门控循环单元(GatedRecurrentUnit,GRU)网络之类的RNN,并且可以依赖DNN的FC层来完成。幸运的是,就像数字加速器似乎特别适合于卷积层(CONV层)一样,基于模拟计算的加速器似乎也特别适合于FC层。

在使用NVM进行模拟计算时,每个FC层每次计算整个VMM,每个权重仅使用一次,效率相当高。相比之下,用基于数字计算的加速器来计算FC层是有问题的,因为要计算的权重数量庞大,但很少有机会巧妙地重复使用数据。CONV层的情况恰好相反。由于许多激活都需要乘以相同的权重,因此基于模拟计算的加速器要么将花费时间来实现这一点,要么花费面积。任一种选择都会降低以单位面积、单位时间的操作数(TOPSmm?2?)衡量的计算效率。

因此,数字深度学习加速器十分适用于每个权重分到大量神经元的层(如CONV层)。同样,如果加速器的有效精度合适,并且数据路由不会牺牲基于交叉开关的矩阵乘法的固有效率,那么模拟加速器对于每个神经元具有很多权重的层(如FC层)就十分理想。这就是说,混合式的模拟数字加速器可能将是这些互补特性的理想融合,从而为DNN带来两全其美的优势,DNN可以受益于各种类型层的混合。

除了新型NVM之外,新颖的基于电容器的CMOS器件,是一种比较奇特的思路,也被试验用于模拟计算。

考虑到现有NVM固有的非线性和不对称性使芯片训练变得困难,金世荣(SeyongKim)等人?[115]?提出了一种基于电容器的模拟突触。突触的权重与电容器的电压值成正比,并把电容器的电压直接连到一个读取晶体管的栅极,从而控制该晶体管的沟道电阻值。这个电容器和几个晶体管组成了一个基于CMOS的模拟阻性处理单元(ResistiveProcessingUnit,RPU)。这些单元组成了一个基于CMOS的交叉开关阵列(而不是前面讲述的基于RRAM、PCM等NVM的交叉开关阵列)来进行深度学习的模拟计算。

金世荣等人建议在每个单元中使用逻辑电路来确定权重更新期间是否需要触发向上或向下的脉冲,并设计成每个单元1000个状态,这意味着电容器将占据单元的大部分面积。另外,尽管突触状态会持续衰减,但可以证明,在高学习率的情况下,只要RC时间常数(控制电荷衰减)与每个训练数据时间实例之间的比例极大(>>1×10?4?,也就是电容值要足够大),网络就可以维持该状态。

为了减小面积,该单元使用了用于嵌入式DRAM技术的高密度深沟槽电容器。但是如果采用其他工艺,设计较小面积的单元并使每个裸片包含大量突触仍是一个挑战。此外,即使取消了某些逻辑器件,要管理上拉和下拉FET之间由随机变化引起的不对称性,仍然需要非常大的器件或其他电路技术。?备案号:YXX1ZKyyJBikaKk6rf9GBK

()

CNN对图像处理等应用非常有用,但对其他应用如机器翻译、字幕和其他自然语言处理则不太理想。此类应用使用LSTM和门控循环单元(GatedRecurrentUnit,GRU)网络之类的RNN,并且可以依赖DNN的FC层来完成。幸运的是,就像数字加速器似乎特别适合于卷积层(CONV层)一样,基于模拟计算的加速器似乎也特别适合于FC层。

在使用NVM进行模拟计算时,每个FC层每次计算整个VMM,每个权重仅使用一次,效率相当高。相比之下,用基于数字计算的加速器来计算FC层是有问题的,因为要计算的权重数量庞大,但很少有机会巧妙地重复使用数据。CONV层的情况恰好相反。由于许多激活都需要乘以相同的权重,因此基于模拟计算的加速器要么将花费时间来实现这一点,要么花费面积。任一种选择都会降低以单位面积、单位时间的操作数(TOPSmm?2?)衡量的计算效率。

因此,数字深度学习加速器十分适用于每个权重分到大量神经元的层(如CONV层)。同样,如果加速器的有效精度合适,并且数据路由不会牺牲基于交叉开关的矩阵乘法的固有效率,那么模拟加速器对于每个神经元具有很多权重的层(如FC层)就十分理想。这就是说,混合式的模拟数字加速器可能将是这些互补特性的理想融合,从而为DNN带来两全其美的优势,DNN可以受益于各种类型层的混合。

除了新型NVM之外,新颖的基于电容器的CMOS器件,是一种比较奇特的思路,也被试验用于模拟计算。

考虑到现有NVM固有的非线性和不对称性使芯片训练变得困难,金世荣(SeyongKim)等人?[115]?提出了一种基于电容器的模拟突触。突触的权重与电容器的电压值成正比,并把电容器的电压直接连到一个读取晶体管的栅极,从而控制该晶体管的沟道电阻值。这个电容器和几个晶体管组成了一个基于CMOS的模拟阻性处理单元(ResistiveProcessingUnit,RPU)。这些单元组成了一个基于CMOS的交叉开关阵列(而不是前面讲述的基于RRAM、PCM等NVM的交叉开关阵列)来进行深度学习的模拟计算。

金世荣等人建议在每个单元中使用逻辑电路来确定权重更新期间是否需要触发向上或向下的脉冲,并设计成每个单元1000个状态,这意味着电容器将占据单元的大部分面积。另外,尽管突触状态会持续衰减,但可以证明,在高学习率的情况下,只要RC时间常数(控制电荷衰减)与每个训练数据时间实例之间的比例极大(>>1×10?4?,也就是电容值要足够大),网络就可以维持该状态。

为了减小面积,该单元使用了用于嵌入式DRAM技术的高密度深沟槽电容器。但是如果采用其他工艺,设计较小面积的单元并使每个裸片包含大量突触仍是一个挑战。此外,即使取消了某些逻辑器件,要管理上拉和下拉FET之间由随机变化引起的不对称性,仍然需要非常大的器件或其他电路技术。?备案号:YXX1ZKyyJBikaKk6rf9GBK

请勿开启浏览器阅读模式,否则将导致章节内容缺失及无法阅读下一章。

相邻推荐:怪谈文学奖:现代都市恐怖病系列  白色球鞋:他爱你的一百件小事  未来旅行家:跨越时空的科幻故事集  就怕小偷有文化:金融诈骗、空中抢劫与艺术品犯罪  论文查重降重攻略:学术论文重复问题剖析  忘记我姓名  有仙气:听说有神动凡心  繁华之间:名利场上的一夜沉浮  古风甜饼,一生一世的赏味期限  杀死女神  全世界都在砸钱养我  二级建造师考试全攻略:从行业政策、备考规划到注册执业  仙君他貌美如花  大话西方艺术史:艺术原来这么有趣  九秘神针:君临天下  2021 智能手机选购指南:看懂市场,做聪明的购机人  2021 平板电脑推荐与选购:高效选品方法论  霍总,夫人的十个哥哥又来催离婚了  邂逅「诗和远方」:打开浪漫诗人的诗词世界  我家院子可以去大明  

已完结热门小说推荐

最新标签