智能架构将AI引入移动设备

2022-10-27 09:24:07 嵌入式计算设计

作者：Eran Briman

深度学习算法正被用于训练卷积神经网络（CNN），以实现更智能的移动设备，这很可能需要一种新的方法来处理架构。但与此同时，巧妙地利用当前的技术可能有助于我们进一步走上真正的认知设备之路，这些设备能够完全重新定义用户体验。

英伟达将在三月份的GPU技术大会上使用汽车和高级驾驶员辅助系统（ADAS）作为应用程序的焦点，并完成了埃隆·马斯克（Elon Musk）的讨论和评论，以表明自动驾驶汽车几乎是一个已解决的问题。然而，随着时间的流逝，以及一些调整和改进 - 着眼于超低功耗 - 我看到了许多技术和应用，从无处不在的3D传感，3D跟踪，甚至视觉搜索，迅速进入智能手机以及供电和电池驱动的嵌入式系统。

再加上用于运动和音频的传感器、快速的内存访问以及高能效的数据处理方法，这些系统可以真正实现“认知”，甚至可能在不久的将来为支持人工智能的移动设备形成一个平台。与此同时，重要的是要优化当前的架构，以实现“智能视觉”功能，如3D深度映射和感知、对象识别和增强现实，以及核心计算摄影功能，如变焦、HDR、图像重新聚焦和低光图像增强。

后一种功能模糊了计算机视觉和图像处理之间的区别，因为许多成像和图像增强功能都使用计算机视觉技术。最简单的例子是多帧图像增强功能，如HDR，变焦和重新对焦，您可以在其中拍摄多个连续图像，然后将它们融合在一起以获得更高质量的图像。

虽然我们称之为“图像增强”，但涉及许多计算机视觉来“注册”图像，这涉及将两个或三个帧相互匹配。该基本功能现在被认为是理所当然的，但需要大量的处理马力。而这种对集中、密集的数字信号处理（DSP）的要求只会增加。

高通公司在Uplinq 2013上发表的一篇论文中很好地绘制了各种视觉处理功能的像素功率和时间关系。如图所示，这些图基于三个处理器：一个运行频率为 1.2 GHz 的单核 CPU、一个四核 CPU 和一个运行频率为 690 MHz 的 DSP。

图 1：绘制各种处理器的每像素能量与每像素时间的关系图显示了 DSP 与 CPU 一起进行视觉处理的优势。为了优化功耗和功能，CPU、DSP 和 GPU 的组合可能是最佳的整体方法。（单击以缩放）

该图显示，以略高于CPU时钟频率的一半运行的DSP可以在图像上获得相同的结果，从而获得潜在的性能增益，同时进一步节省功耗（功率=电容x电压）2x 频率，或 P=CV2断续器）。

然而，随着我们在移动平台上执行类似人类的视觉、人工智能和增强现实应用，可能需要重新思考处理架构。结合传感器融合和先进的深度学习算法（如CNN），这些高度先进和数学密集型应用程序将提供更具环境和上下文感知的用户体验，但将迫使在电池寿命方面进行权衡。

设计人员面临的挑战是启用这个认知设备的新世界，同时保持可接受的电池寿命。有几种方法可以实现此目的。例如，CPU可以由高通或英伟达的GPU支持。这已经在许多智能手机中实施。然而，对越来越低功耗的不妥协需求表明，可以将特定的处理密集型功能分配给视觉优化的DSP内核。采用这种方法可以放弃功耗 9 倍的改进与当今的高级 GPU 集群相比，同时运行对象识别和跟踪。

即使有这种程度的节能，移动设备也不太可能很快使用面部识别执行人群搜索，因为它的处理成本太高。但是，低功耗处理内核和优化架构的可用性增加了乐观情绪，并且正在取得扎实的进展。这种进步是《麻省理工学院技术评论》将深度学习列为2013年10项技术突破之一的原因之一。并在GTC上进行了演示，并在微软，百度和Cognivue等公司的其他研究中进行了演示，从那时起发生了很多事情。

虽然处理架构和低功耗处理至关重要，但可以合理地假设，随着云连接变得越来越普遍和更快，我们应该为云分配尽可能多的处理开销。同样，它归结为智能分区。在云中做最好在云中做的事，然后在移动设备上，尽可能高效地构建功能分配，例如使用CPU在GPU和DSP之间分配负载。或者正如高通公司所说，利用正确的引擎来完成正确的任务。