使用首次峰值时间增强深度学习的框架
海德堡大学和伯尔尼大学的研究人员最近设计了一种使用尖峰神经形态基板实现快速和节能计算的技术。在Nature Machine Intelligence上发表的一篇论文中介绍的这种策略是对首次尖峰时间 (TTFS) 编码方案的严格改编,以及在某些人工神经元网络上实施的相应学习规则。TTFS 是一种时间编码方法,其中神经元的活动与其发射延迟成反比。
“几年前,我在海德堡的电子视觉小组开始了我的硕士论文,”从事这项研究的主要研究人员之一朱利安戈尔茨告诉 TechXplore。“鉴于其神经元和突触回路如何模拟大脑中神经元和突触的动态,那里开发的神经形态 BrainScaleS 系统有望成为类脑计算的一个有趣的基础。”
当 Goeltz 开始在海德堡学习时,脉冲网络的深度学习模型仍然相对未被探索,现有方法并没有非常有效地使用神经元之间基于脉冲的通信。2017 年,加州大学圣地亚哥分校的研究员 Hesham Mostafa提出了一个想法,即个体神经元尖峰的时间可用于信息处理。然而,他在论文中概述的神经元动力学仍然与生物动力学有很大不同,因此不适用于受大脑启发的神经形态硬件。
Goeltz 解释说:“因此,我们需要针对单个尖峰时间提出一种硬件兼容的误差反向传播变体,这是现代人工智能革命的基础算法。” “困难在于突触输入和尖峰神经元输出之间相当复杂的关系。”
最初,Goeltz 和他的同事着手开发一个数学框架,该框架可用于解决基于脉冲神经网络中的时间编码实现深度学习的问题。他们的目标是然后将这种方法和他们收集的结果转移到 BrainScaleS 系统上,这是一个著名的神经形态计算系统,可以模拟神经元、突触和大脑可塑性模型。
“假设我们有一个分层网络,其中输入层接收图像,经过几层处理后,最顶层需要将图像识别为猫或狗,”该研究的第二位首席研究员 Laura Kriener ,告诉 TechXplore。“如果图像是一只猫,但顶层的‘狗’神经元变得活跃,网络需要知道它的答案是错误的。换句话说,网络需要改变神经元之间的连接——即突触这样,下次它看到相同的图片时,“狗”神经元保持沉默,而“猫”神经元则活跃。”
Kriener 描述并在最近的论文中解决的问题,称为“信用分配问题”,本质上需要了解神经网络中的哪些突触负责网络的输出或预测,以及每个突触应该承担多少信用给定的预测。
为了确定网络的错误预测中涉及哪些突触并解决问题,研究人员经常使用所谓的错误反向传播算法。该算法的工作原理是通过网络将神经网络最顶层中的错误传播回网络,以告知突触自己对这个错误的贡献,并相应地改变它们中的每一个。
当网络中的神经元通过尖峰进行通信时,每个输入尖峰都会“提高”或“降低”神经元的电位。这个“凸起”的大小取决于给定突触的权重,称为“突触权重”。
“如果积累了足够多的向上颠簸,神经元就会‘激发’——它会向其伙伴发出自己的尖峰信号,”Kriener 说。“我们的框架有效地告诉突触如何改变其权重以实现特定的输出尖峰时间,考虑到上层神经元的计时误差,类似于反向传播算法,但对于尖峰神经元。这样,整个尖峰网络的活动可以以所需的方式进行塑造——在上面的例子中,这将导致‘猫’神经元提前激活,而‘狗’神经元保持沉默或稍后激活。”
由于其基于尖峰的特性以及用于实现它的硬件,Goeltz、Kriener 及其同事开发的框架表现出非凡的速度和效率。此外,该框架鼓励神经元尽可能快地尖峰,而且仅一次。因此,信息流既快速又稀疏,因为很少有数据需要流经给定的神经网络才能完成任务。
“BrainScaleS 硬件进一步放大了这些功能,因为它的神经元动态非常快——比大脑中的快 1000 倍——这意味着相应的信息处理速度更高,”Kriener 解释说。“此外,硅神经元和突触被设计成在运行过程中消耗很少的能量,这为我们的神经形态网络带来了能源效率。”
这些发现可能对研究和开发具有重要意义。除了为进一步的研究提供信息外,他们实际上还可以为开发更快、更高效的神经形态计算工具铺平道路。
“关于大脑中的信息处理,一个长期存在的问题是:为什么我们大脑中的神经元用尖峰进行交流?或者换句话说,为什么进化偏爱这种交流形式?” 该研究的高级研究员 MA Petrovici 告诉 TechXplore。“原则上,这可能只是细胞生物化学的一个偶然现象,但我们认为,像我们这样的稀疏且快速的基于尖峰的信息处理方案为尖峰的功能优势提供了一个论据。”
研究人员还在一系列系统的稳健性测试中评估了他们的框架。值得注意的是,他们发现他们的模型非常适合不完善和多样化的神经基质,这类似于人类皮层中的那些,其中没有两个神经元是相同的,以及其组件不同的硬件。
Petrovici 解释说:“考虑到芯片设计的最新发展,我们相信,我们展示的高速和低功耗的结合恰逢其时。” “虽然在现代处理器上,晶体管的数量仍然大致呈指数增长(摩尔定律),但以时钟频率衡量的原始处理速度在 2000 年代中期停滞不前,这主要是由于高功耗和出现的高工作温度一个结果。此外,现代处理器本质上仍然依赖冯诺依曼架构,具有中央处理单元和单独的存储器,信息需要在算法中的每个处理步骤之间流动。”
在神经网络中,记忆或数据存储在处理单元本身内;也就是说,在神经元和突触内。这可以显着提高系统信息流的效率。
由于信息存储和处理效率更高,这组研究人员开发的框架消耗的能量相对较少。因此,它对于诸如纳米卫星或可穿戴设备等边缘计算应用特别有价值,在这些应用中,可用功率预算不足以支持现代微处理器的操作和要求。
到目前为止,Goeltz、Kriener、Petrovici 和他们的同事使用一个平台运行他们的框架,用于基础神经形态研究,因此优先考虑模型灵活性而不是效率。未来,他们希望在定制设计的神经形态芯片上实现他们的框架,因为这可以让他们进一步提高其性能。
“除了使用我们的设计策略构建专用硬件的可能性之外,我们还计划进一步研究两个问题,”Goeltz 说。“首先,我们希望将我们的神经形态实现扩展到在线和嵌入式学习。”
为了最近的这项研究,研究人员开发的网络在预先记录的数据集上进行了离线训练。然而,该团队还希望在现实世界的场景中对其进行测试,在这些场景中,计算机有望通过分析设备、机器人或卫星收集的在线数据来学习如何即时完成任务。
“为了实现这一目标,我们的目标是利用嵌入在芯片上的可塑性机制,”Goeltz 解释说。“我们不想让主机在学习期间计算突触变化,而是希望让每个突触能够自己计算和制定这些变化,仅使用本地可用信息。在我们的论文中,我们描述了实现这一目标的一些早期想法。 ”
在他们未来的工作中,Goeltz、Kriener、Petrovici 和他们的同事还想扩展他们的框架,以便它可以处理时空数据。为此,他们还需要根据时变数据(例如音频或视频记录)对其进行训练。
“虽然我们的模型原则上适合以任意方式塑造网络中的尖峰活动,但在时间序列学习期间基于尖峰的错误传播的具体实现仍然是一个开放的研究问题,”Kriener 补充道。
标签: