许多应用程序开发人员仍在理解机器学习(ML)的好处,但有一件事是明确的——机器学习将继续存在,特别是当更多的处理能力转移到边缘时。对于机器学习来说,最容易实现的目标是那些既能省钱又能赚钱的应用程序。亚博波胆怎么算的例如,通过将高性能ML添加到用于检查装配线上的产品的视觉系统中,可以节省资金;亚博公司待遇排队越快,产品就能越快送达。亚博公司待遇通过向产品中添加ML功能,使其更有用和/或更受欢迎,可以实现赚钱;考虑在门铃上添加人脸识别,用来确定是朋友还是敌人在门口。在任何情况下,最好的机器学习解决方案都是性能、能源和价格等因素的平衡。
NXP的处理器涵盖了一系列的机器学习解决方案——从mcu (LPC和i.m mx RT)到高端应用处理器(i.m mx, Layerscape和用于汽车的S32V)。亚博波胆怎么算的最近我们宣布与Arm合作®这表明我们对mcu的ML支持有望达到性能和能源的新维度。具体来说,这一公告是关于Arm的Ethos-U55,一种旨在与Cortex一起工作的microNPU(神经处理单元或ML加速器)®-M,包括Cortex-M33, Cortex-M7和Cortex-M4处理器。
在这次microNPU公告中,恩智浦被任命为主要合作伙伴,尽管目前我们还没有披露任何MCU实现细节。然而,为了承认我们在ML加速方面的地位,我们最近推出了i.m mx 8M Plus,这是我们第一款带有专用NPU的设备。i.m mx 8M Plus包含一个连接到系统总线上的2.3 TOPS(每秒1兆次操作)Verisilicon NPU,而0.1-0.5 TOPS microNPU则被设计为一个协处理器(稍后会详细介绍)。大多数行业都专注于最高性能的ML加速,从2到8到30 TOPS甚至更高,NXP也将遵循这条道路。但我们也相信,认识到ML加速在低功耗领域(低于1 TOP)的价值是很重要的,特别是当ML功能集成到微型端点传感器和其他边缘设备中时。
运行更快比赛的常见NPU特性
尽管它们的尺寸和接口不同,但Ethos-U55和i.m mx 8M Plus npu在架构上有相似之处。两个npu都可以执行并行的乘法-累加(MAC)操作来处理复杂的矩阵数学(分别为32-256个MAC /周期和1150个MAC /周期)。两个npu都支持模型压缩和权重解压缩,有助于最大限度地减少系统内存的使用,并减少内存总线带宽的压力。为了进一步提高性能,两个npu都有DMA引擎来读写数据和神经网络权重到/从系统内存(可以是DRAM或片上RAM或闪存,取决于SoC设计)。
机器学习软件和硬件同样重要。透过我们的eIQ®机器学习软件开发环境,我们已经启用了使用TensorFlow Lite在我们所有的设备上。今天,我们甚至在i.m mx RT设备上提供TensorFlow Lite支持,包括与开箱即用的TensorFlow Lite相比,一些神经网络模型的性能显著提高的底层优化。但这里的重点是使用一种通用的推理方法来促进将您的ML应用程序移植到许多设备上,无论是i.m mx RT Crossover MCU还是i.m mx 8应用程序处理器。亚博波胆怎么算的这种方法在Ethos-U55上得到了延续,使用了TensorFlow的进一步精简版本,称为TensorFlow Lite,用于微控制器。这种通用性允许用户在TensorFlow中开发,然后转换为TensorFlow Lite或TensorFlow Lite Micro格式。
开发人员可以使用他们现有的TensorFlow Lite模型,并使用Arm修改过的TensorFlow Lite微运行时运行它们。这些修改包括一个离线优化器,它可以自动进行图划分、调度和优化。这些简单的添加使得在异构系统上运行ML变得很容易,因为开发人员不必修改他们的网络。
作为协处理器,Ethos-U55与主机Cortex M核心共享神经网络图处理。离线优化器的输出是一个部署在目标设备上的TensorFlow Lite平面文件。平面文件包含了神经网络的哪一层在Ethos-U55和附加的Cortex-M处理器上执行的信息。由Ethos-U55支持的层在其上加速,其余层在附加的Cortex-M上执行。如果相应的内核可用,在Cortex-M处理器上执行的层将通过CMSIS-NN软件库加速。否则,将使用TensorFlow Lite Micro参考内核。
虽然这可能看起来有限,但Ethos-U55支持正确的运营商组合,以处理广泛的流行网络。协处理器方法的一个附带好处是,它消除了电路中的一些冗余,使Ethos-U55足够小,可以用于MCU设计[根据Arm的说法,“对于成本敏感和能量有限的设备中的AI应用,Ethos-U55比当前的Cortex-M CPU节能高达90%。亚博波胆怎么算的Ethos-U55也消耗非常小的面积,在TSMC 16FFC工艺中大约0.1mm².”]。
无论是支持本地语音命令处理还是识别40000个单词的自然语言处理,还是面部识别或并行运行多个复杂的视觉算法,您都可以在今天的许多NXP设备上实现这些功能。但NXP处理器中的集成npu有望为您的应用程序提供更高水平的性能、能源和成本效益,使您能够在交付出色产品的竞争中获胜。亚博公司待遇
欲了解更多原定于2020年嵌入式世界大会的新闻、内容和培训,请访问NXP的在线体验。