Arm物联网兼嵌入式事业部副总裁 Mohamed Awad
Arm物联网兼嵌入式事业部业务拓展副总裁 马健
中国有句古话,眼观六路,耳听八方,敏锐的观察和感知能力是人类智慧的基础。传统的摄像头只有感知功能,并不能理解图像所描述的人和事物。计算机视觉利用人工智能(AI)让智能摄像头等设备变得聪明,可以解释和理解图像中发生的事情。通过科技重新打造一个与人眼一样强大的传感器,为计算机执行以往需要人类视觉才能进行的任务,开启了广泛而多样的用例,因此计算机视觉正迅速成为物联网获取真实世界数据并处理数据的最重要方式之一。
从计算停车场的汽车数量,到监控零售商店的客流量,或是找出生产线上的瑕疵品,智能摄像头的计算机视觉功能正被应用于广泛的商业与工业场景中。在家中,智能摄像头可以告诉我们包裹何时己送达、小狗是否从后院溜了出去,或是婴儿何时醒来等待呵护。
智能摄像头技术在商用与消费市场的应用正呈现指数级增长。根据市场调研与战略咨询公司Yole Développement在2020年发布的《用于监控与安全用途的摄像头与计算》报告,全球仅用于监控的摄像头约有10亿台,预计到2024年,这一数字有望翻倍增长。
这项技术在安全性、异构计算、图像处理与云服务等方面有了长足的进展,让未来的计算机视觉产品能具备更胜以往的能力。
智能摄像头的安全性是计算机视觉的首要考量
物联网的安全性是科技行业的重中之重但又极具挑战。确保所有物联网设备不被恶意人士所利用至关重要,特别是当这些设备已经获取并存储了与人、地点及高价值资产有关的图像数据。
未经授权访问负责监控工厂、医院、学校或家庭的智能摄像头的数据,不但严重侵犯了隐私权,也可能导致密谋犯罪、机密数据外泄等难以估量的伤害。智能摄像头遭到破解的同时也会提供一个破口,让恶意人士可以访问网络内诸如门禁、暖气与照明控制等其它设备,甚至控制整个智能工厂。
我们需要能够信任智能摄像头来维护所有人的安全,而不是为隐私侵犯另辟新径。Arm坚信物联网安全的重要性,多年来在此领域持续开发和创新,通过包括适用于Cortex®-A与Cortex®-M的Arm TrustZone等产品组合令最终客户可以放心部署从云到端的物联网应用。
在未来,基于Armv9架构的智能摄像头芯片,将通过Arm机密计算架构(Confidential Compute Architecture, CCA)进一步强化计算机视觉产品的安全性。
除此之外,Arm也持续推动安全性最佳实践的共同标准,如PSA Certified与PARSEC等。这些标准旨在确保未来所有智能摄像头都能具有内置安全性:从图像传感器首次进行场景录像到存储数据,无论数据是存储在本机上或是利用先进的安全与数据加密技术存储在云端。
终端AI驱动智能摄像头的计算机视觉
图像传感器技术与边缘AI的结合能让智能摄像头通过大量获取计算机视觉的数据,进行日益复杂的推理。智能摄像头内的新机器学习能力可以满足多样化的用例,例如探测人或动物、辨识特定物件,以及读取车牌号码。这些计算机视觉的应用都需要在终端设备运行机器学习(ML)算法,而不是把数据送到云端进行推论处理。分布式算力是数据时代的大趋势,将计算能力移至距离数据更近的地方可以提高决策速度,降低带宽成本并更好地维护数据安全。
例如,在繁忙的十字路口部署一台智能摄像头,通过计算机视觉可以确认一天中各时段等待红灯的汽车数量与类型,再利用设备本身的ML功能来处理数据并进行推论,在不需要人为干预的情况下,智能摄像头便可以自动调整它的时序,从而自动减少交通拥堵并限制排放的增加。
Arm针对AIoT和边缘智能的投资体现在我们日益壮大的AI合作生态系统,Arm架构对矢量计算的支持,各种AI框架模型在Arm处理器上的优化,以及Ethos机器学习加速器产品线的普及。Arm Ethos产品系列是具备高度可扩展性与高效的NPU,它通过多核心技术,可支持每秒从0.1到10 TOP。同时,Arm也积极寻求与第三方加速器的整合,使AI、多媒体处理更简易高效地运行在Arm架构的芯片产品上。软件在ML领域扮演极其重要的角色,通过Arm NN SDK与TensorFlow Lite for Microcontrollers(TFLM)开源框架,Arm持续不断地支持开源社区和与其他生态伙伴的合作。
这些机器学习工作负载框架是基于现有的神经网络以及高效的Arm Cortex-A CPU、Mali™ GPU、Ethos NPU与Arm Compute库以及CMSIS-NN。
通过第二代可伸缩矢量扩展(SVE2),Armv9架构能提供简单易用的向量计算(可以平行计算的个别数据组),支持强化的AI功能。如此一来,开发者不用重写或重新编译代码,就能直接扩充硬件向量长度。在未来,矩阵乘法的扩展(强化ML的要素之一)将进一步推动AI的发展。
与云互连的智能摄像头
云与边缘计算也有助于加速智能摄像头的采用。传统的CCTV架构通过网络录像机(NVR)或数字录像机(DVR)将摄像头的数据存储于本机。这种模式有许多的限制,包括需要庞大的存储空间以及每台NVR上有限的实体连接端口数量。
迁移到云原生的模式可大幅简化智能摄像头的部署:任何数量级的摄像头都可以通过下载到设备的配置文档进行配置与管理。这也是一种良性循环:来自智能摄像头的数据可以针对特定的用例来训练存储在云上的模型,从而使摄像头更加智能,当摄像头变得更智能,它们需要上传的数据量就会越小。
云计算的使用也能结合来自多台智能摄像头的计算机视觉数据,通过AI传感器融合实现流程自动化。以我们刚刚提到的部署在十字路口的智能摄像头为例,云AI算法可以对来自多台智能摄像头的数据进行综合分析,不断地调整整个城市里的交通信号灯时序,进而保持交通畅通。
Arm支持从云到终端所需的连续处理能力:Cortex-M微控制器与Cortex-A处理器驱动智能摄像头,Cortex-A处理器驱动边缘网关,云与边缘服务器则利用了Neoverse平台的能力。
智能摄像头的全新软硬件需求
计算机视觉设备的计算需求每年持续增长,超高分辨率的视频获取(8K 60fps)与64位(Armv8-A)的处理能力是目前高端智能摄像头产品的标准。
因此,下一代智能摄像头的SoC必须采用异构架构,结合CPU、GPU、NPU与专属的硬件,实现计算机视觉、图像处理、视频编解码等功能。
存储也是另一个关键的技术难点:尽管终端AI可以在摄像头本地处理图像,以降低存储的需求,但许多用例仍需要将数据保存在某个地方(无论是设备本机上,或是边缘服务器或云上)以确保安全。
为了确保能妥善存储高分辨率的计算机视觉数据,H.265和AV1等新的视频编解码标准正在成为业界公认的标准。
新的应用场景驱动持续创新
总而言之,来自新应用场景的需求正在推动对于计算与图像技术全面持续改善的需求。新一代的CCTV摄像头等图像获取设备已是今非昔比,它们所产生的已不再是一张张难以辨识面容的粗糙图像。计算机视觉的进步——效率更高、功能更强大的计算结合AI与ML的智能——让智能摄像头不仅只是图像传感器,而是可以像人类的眼睛一样理解图像,通过所见所闻了解认识世界。连接模拟与数字世界的桥梁正开启我们过去曾觉得难以置信的全新应用场景。