TinyML设备设计的Arm内核

时间:2021-09-15 17:20:00

TinyML设备设计的Arm内核

Arm cores designed for TinyML devices

Arm推出了两个新的IP核,旨在为终端设备、物联网设备和其低功耗、成本敏感的应用程序提供机器学习的动力。Cortex-M55微控制器核心率先采用Arm的氦矢量处理技术,而Ethos-U55机器学习加速器则是该公司现有Ethos NPU(神经处理单元)家族的微型版本。两个核心设计为一起使用,尽管也可以单独使用。             

在微控制器和其成本敏感、低功耗资源受限的设备上实现人工智能和机器学习应用被称为tinyML领域。随着5G的兴起,终端设备的智能化趋势开始显现,tinyML有望以指数级的速度成长为一个包含数十亿消费者和工业系统的市场。

“当回首五年后,可能都同意这一次标志着计算领域真正的范式变革,”Arm物联网和嵌入式的高级主管thomasensergueix说。“在几年内就看到了人工智能如何彻底改变了数据分析在云端的运行方式,大多数人口袋里都有一部人工智能增强型智能手机,现在是下一步,为各地的人工智能做好准备。”

TinyML设备设计的Arm内核

智能家居设备,如智能音箱,将越来越能够自己进行机器学习推理

机器学习,包括语音识别和计算机视觉应用,将越来越多地发生在微控制器中。一系列的微控制器替代品如雨后春笋般涌现,基于Arm内核和其处理器,Arm正瞄准这两个新内核。

Ensergueix说:“知道,端点级别的所有数据都不能回到云端。“家庭或智能城市中的摄像机每天都会产生千兆字节的数据,而基础设施并不是为这种上游数据流而建的。确信,需要的是扩展到数十亿或万亿的物联网终端,将需要直接在物联网终端的人工智能推断能力。需要安全。”

Cortex-M55

Cortex M-55是Arm著名的Cortex-M系列微控制器的最新补充,被设计成Arm最具人工智能能力的Cortex-M内核。

M55是第一款使用Arm新的氦矢量处理技术的机型,与前几代Cortex-M相比,该技术的DSP性能提高5倍,ML性能提高15倍。基于Armv8.1-M体系结构,可以创建自定义指令来针对特定的工作负载优化处理器,也许可以压缩掉最后一次断电。

结合M55和U55利用了M55增加的DSP马力,可以用于信号预处理。然而,M55本身可以运行神经网络工作负载。具有INT8数字的专用指令,包括在机器学习应用中常用的点积。

一个成功的AIoT应用“不仅取决于良好的计算性能,而且还取决于能否在正确的时间获得正确的数据、正确的系数和正确的机器学习权重,因此处理器的内存接口已经过优化,能够处理所有进出的数据。在这方面,比其任何Cortex-M核心都更有能力,”Ensergueix说。

TinyML设备设计的Arm内核

Cortex-M55和Ethos-U55的组合对于手势识别、生物识别和语音识别等应用具有足够的处理能力。

Ethos-U55

Ethos-U55被称为Arm的首款“微型NPU”,提供高达0.5的最高加速度(基于16nm或7nm等更小的几何结构,运行频率为1GHz)。Arm还没有公布能效数据(TOPS/W)。是可配置的-可以使用32到256个乘法累加单元(mac)-有一个重量解码器和直接内存访问,用于动态权重解压缩。

Ethos-U55加入了Ethos N77、N57和N37,相比之下,分别提供了4个、2个和1个TOP。性能可以通过使用多个etos内核进行扩展。

TinyML设备设计的Arm内核

Cortex-M55和Ethos-U55设计用于一起使用,但也可以单独使用。

M55和U55这两个新的内核被设计为可以一起使用,可以比任何上一代Cortex-M设备更快地处理ML任务。Arm表示,与单独使用Cortex-M7相比,使用ML的端到端语音助手应用程序的速度提高了50倍,而且功率效率提高了25倍。

Arm机器学习小组副主席史蒂夫·罗迪解释说:“Cortex-M将运行应用系统代码,然后当需要处理神经网络工作负载时,该程序的命令流被放入SRAM中,向U55发出一个中断,这里,开始执行这个命令流。”。“这可能是单一模型的单一推论。U55运行完成,将结果返回SRAM,然后让Cortex-M接管。也可能是在处理流式数据(可能是音频或视频)时连续运行的情况。”

基于这些新核心的硅应该在2021年初上市。