IBM加州研究院实验室的一款新芯片原型,酝酿已久,有可能颠覆人工智能的有效使用方式和地点。

IBM 推出高能效 NorthPole 机器学习处理器

我们正处于人工智能的寒武纪大爆发之中。在过去的十年中,人工智能已经从理论和小型测试发展到企业级用例。但是,用于运行AI系统的硬件虽然越来越强大,但在设计时并没有考虑到当今的AI。随着人工智能系统的规模扩大,成本飙升。摩尔定律,即处理器电路密度每年翻一番的理论,已经放缓。

但是,IBM研究院位于加利福尼亚州阿尔马登的实验室经过近二十年的新研究,有可能彻底改变我们如何有效地扩展强大的人工智能硬件系统。

自半导体工业诞生以来,计算机芯片主要遵循相同的基本结构,其中处理单元和存储待处理信息的存储器是离散存储的。虽然这种结构允许更简单的设计,这些设计几十年来能够很好地扩展,但它创造了所谓的冯诺依曼瓶颈,在这种瓶颈中,需要时间和精力在内存、处理和芯片内的任何其他设备之间不断来回打乱数据。IBM研究院的Dharmendra Modha及其同事的工作旨在改变这种状况,从大脑的计算方式中汲取灵感。“它开辟了一条与冯·诺依曼架构完全不同的道路,”Modha说。

在过去的八年里,Modha一直在研究一种用于神经推理的新型数字AI芯片,他称之为NorthPole。它是TrueNorth的延伸,TrueNorth是Modha在2014年之前研究的最后一个大脑启发芯片。在流行的ResNet-50图像识别和YOLOv4对象检测模型的测试中,新的原型设备展示了比目前市场上任何其他芯片更高的能效,更高的空间效率和更低的延迟,并且比TrueNorth快约4,000倍。

NorthPole芯片的第一组有希望的结果今天发表在《科学》杂志上。根据Modha的说法,NorthPole是芯片架构的突破,在能源,空间和时间效率方面提供了巨大的改进。使用ResNet-50型号作为基准,NorthPole比普通的12纳米GPU和14纳米CPU效率高得多。(NorthPole本身建立在12纳米节点处理技术之上。在这两种情况下,当涉及到每焦耳所需功率解释的帧数时,NorthPole 的能源效率都提高了 25 倍。NorthPole 在延迟以及计算所需的空间方面也表现出色,就每十亿个晶体管每秒解释的帧而言。根据Modha的说法,在ResNet-50上,NorthPole的性能优于所有主要的流行架构 - 即使是那些使用更先进技术工艺的架构,例如使用4纳米工艺实现的GPU。

它是如何以比现有芯片更高的效率进行计算的?与NorthPole的最大区别之一是设备的所有内存都在芯片本身上,而不是单独连接。如果没有冯诺依曼瓶颈,该芯片可以比市场上已有的其他芯片更快地进行AI推理。NorthPole 采用 12 纳米节点工艺制造,在 800 平方毫米内包含 220 亿个晶体管。它有 256 个内核,每个周期可以以 8 位精度执行 2,048 个操作,有可能分别将 4 位和 2 位精度的操作数量增加一倍和四倍。“这是一个芯片上的整个网络,”Modha说。

PCIe 卡上的NorthPole芯片(图片来源IBM网站)

“在架构上,NorthPole模糊了计算和内存之间的界限,”Modha说。“在单个内核级别,NorthPole 显示为接近计算的内存,而在芯片外部,在输入输出级别,它显示为活动内存。这使得 NorthPole 易于集成到系统中,并显著降低了主机上的负载。

但NorthPole的最大优势也是一个限制:它只能轻松地从船上的内存中提取。如果芯片必须从另一个地方访问信息,那么芯片上所有可能的加速都将被削弱。通过一种称为横向扩展的方法,NorthPole 实际上可以支持更大的神经网络,方法是将它们分解为适合 NorthPole 模型内存的较小子网,并将这些子网连接到多个 NorthPole 芯片上。因此,虽然NorthPole(或一组NorthPole)上有足够的内存用于许多对特定应用有用的模型,但该芯片并不意味着万事通。“我们不能在此上运行GPT-4,但我们可以满足企业所需的许多模型,”Modha说。“当然,NorthPole只是为了推理。”

这种功效意味着该设备也不需要笨重的液体冷却系统来运行 - 风扇和散热器绰绰有余 - 这意味着它可以部署在一些相当小的空间中。

NorthPole的潜在应用

虽然对NorthPole芯片的研究仍在进行中,但其结构适用于新兴的人工智能用例,以及更成熟的用例。

在测试中,NorthPole团队主要关注与计算机视觉相关的用途,部分原因是该项目的资金来自美国国防部。考虑的一些主要应用是检测、图像分割和视频分类。但它也在其他领域进行了测试,例如自然语言处理(在仅编码器BERT模型上)和语音识别(在DeepSpeech2模型上)。该团队目前正在探索将仅解码器的大型语言模型映射到NorthPole 横向扩展系统。

当你想到这些人工智能任务时,各种奇幻的用例浮现在脑海中,从自动驾驶汽车到机器人、数字助理或空间计算。许多需要实时处理大量数据的边缘应用可能非常适合NorthPole。例如,它可能是将自动驾驶汽车从需要设定地图和路线才能在小规模上运行的机器转移到能够思考和应对罕见边缘情况的设备,这些情况使得在现实世界中导航变得如此具有挑战性,即使是熟练的人类驾驶员。这些边缘情况是未来NorthPole应用的确切最佳选择。NorthPole可以使卫星监测农业和管理野生动物种群,监控车辆和货运,确保道路更安全,更不拥挤,安全操作机器人,并检测网络威胁以实现更安全的企业。

下一步是什么

这只是Modha在NorthPole工作的开始。目前最先进的CPU是3纳米,IBM本身已经在2纳米节点上进行了多年的研究。这意味着除了基本的架构创新之外,NorthPole 还可以实施几代芯片处理技术,以不断提高效率和性能。

但对于莫达来说,这只是他职业生涯过去19年中主导的连续统一体的一个重要里程碑。在那段时间里,他一直在研究数字大脑启发的芯片,知道大脑是我们所知道的最节能的处理器,并寻找以数字方式复制它的方法。TrueNorth完全受到大脑中神经元结构的启发,并且其中的数字“突触”与蜜蜂的大脑一样多。但2015年,莫达坐在旧金山的公园长椅上,说他正在思考他迄今为止的工作。他相信,将最好的传统处理设备与大脑中的处理结构结合起来是有道理的,其中记忆和处理散布在整个大脑中。答案是“具有硅速度的大脑启发计算”,根据Modha的说法。

在接下来的八年里,Modha和他的同事们一心一意,将这一愿景变为现实。该团队在亚玛顿辛勤工作,直到今年才就他们的工作发表任何讲座或发表任何论文。每个人都带来了不同的技能和观点,但每个人都在合作,因此作为一个整体,团队的贡献远远大于各部分的总和。现在,该计划是展示NorthPole可以做什么,同时探索如何将设计转化为更小的芯片生产工艺,并进一步探索架构的可能性。

这项工作源于简单的想法——我们如何制造像大脑一样工作的计算机——经过多年的基础研究,已经提出了一个答案。这实际上只有在今天才能在像IBM研究院这样的地方实现,那里有时间和空间来探索计算中的重大问题,以及它们可以带我们去的地方。“NorthPole是硅晶片镜子中大脑的微弱表示,”Modha说。