在自动化和智能技术发展日益成熟的今天,机器视觉系统在许多领域被广泛应用,包括自动驾驶汽车、智能制造、自动化手术和生物医学成像等。
这些机器视觉系统大多使用基于普通光学镜头模组的相机,在拍摄通常高达具有数百万像素的图像或视频后,通常将其馈送到如GPU等数字逻辑处理单元从而来执行一定的机器学习任务,例如物体识别、分类和场景分割等。
艺术效果图:基于光学神经网络的机器视觉系统
这种经典的机器视觉架构具有如下几个方面的缺点:
第一,高像素传感器拍摄带来大量信息使其难以实现极高速的图像或视频数字化存储和分析,尤其在使用移动设备和电池供电的设备时更是带来了能耗和性能的平衡问题;
第二,所捕获的图像通常包含许多对机器学习任务无用的冗余信息,带来了后端处理器某种程度上的性能负担,和资源浪费,从而导致在功耗和内存需求方面效率低下。
第三,在可见光的波长以外的电磁波段制造高像素数图像传感器(如手机相机中的传感器)具有很大的挑战性,且其成本十分昂贵,因而也限制了机器视觉系统在更长波段(如太赫兹)上的应用。
最近,加州大学洛杉矶分校(UCLA)的研究人员开发了一种新的单像素机器视觉系统,通过引入光学神经网络(名词解释⏬)的方式规避了传统机器视觉系统的诸多缺点。
图1 来自加州大学洛杉矶分校的研究人员发明了一个新型单像素机器视觉系统,该系统可以将物体的空域信息编码为功率谱,从而实现对图像进行分类和重建。
该成果以Spectrally encoded single-pixel machine vision using diffractive networks为题发表在Science Advances。
研究人员借助深度学习技术,设计了一个由多个衍射层组成的衍射光学神经网络(Diffractive Optical Neural Networks)(拓展阅读⏬),这些衍射层由计算机自动优化设计,可将经过的输入光场调制成一定的目标分布,从而能够执行计算和统计推断任务。
与常规的基于镜头模组的相机不同,该衍射光学神经网络以被宽带光照明的物体作为其输入,将物体的空域特征信息提取并编码到衍射光的光谱上,而后光谱信号由具有频谱探测能力的单像素超快传感器所收集。通过将物体对应的不同的类别分配给不同波长的光频谱分量,该系统仅使用单像素传感器探测到的输出光谱即可自动对输入对象完成分类,从而无需图像传感器阵列和后端数字处理。这种框架实现了全光学推理和机器视觉,在帧速率、内存需求和功耗效率方面具有明显优势,这些特点对于移动计算应用而言尤为重要。
图2. 该系统使用宽带光对物体进行照明。系统分类结果取决于单像素传感器测得的输出光功率谱上10个波长位置上最强的信号,其波长对应的类别即是分类预测结果。功率谱信号还可以输入到数字神经网络中被用于重建物体本身的图像。
为验证这一概念,研究人员通过使用单像素传感器和3D打印的衍射层对使用手写数字图像数据集(MNIST)的所构建的物体进行分类,在实验中证明了该框架在太赫兹波段下的性能。研究者基于提前选定的10个波长对实验系统进行了设计,这10个波长被逐一分配给输入物的不同类别(对应手写数字的0到9),对物的分类结果取决于传感器输出功率谱上10个波长位置上信号最强者的波长对应的类别。
实验系统中的单像素探测方案基于太赫兹时域光谱术实现,照明光为极短的太赫兹脉冲,网络的推理以光速在瞬时间完成。
最终,该系统在手写数字分类任务中实现了超过96%的分类精度,实验结果也与数值模拟非常吻合,证明了该单像素机器视觉框架在构建低延迟、高效的机器学习系统方面的可行性。除物体分类外,研究人员还将此衍射神经网络的输出与一个简单的全连接数字神经网络相连接,仅通过功率谱上10个波长处的信号强度来快速重建此输入物的图像,从而实现了图像的重建或“解压缩”。
总而言之,这种单像素对象分类和图像重建框架可以为新的机器视觉系统的开发铺平道路。该系统具有低像素数、低延迟、低功耗和低成本的特点,以高效、节省资源的独特优势通过将物体信息进行频谱编码来实现特定的推理任务,有望广泛应用于移动计算、边缘计算等领域。
此外,该新框架还可以扩展到各种光谱域测量系统,例如光学相干断层扫描、红外波段成像等,有助于构建基于衍射神经网络的光谱和空间信息编码集成的新型3D传感和成像方式。