一文读懂数据脱敏技术在智能汽车中的应用

2022-11-09 09:50:19 九章智驾

关键词: 智能汽车

有人说，智能手机就如同一部窃听器，无论你开机或者关机，它都会无时不刻地监听着用户的一举一动，而随着车联网的发展，汽车会越来越智能化，就像是一部“装着四个轮子的手机”，可想而知，智能车辆上的信息安全问题可能比智能手机更加严重。比如车辆的定位信息、相机所记录下的路端画面、车舱内的乘客录音录像等等，这些数据作为智能车发展的“燃料剂”，既是不可或缺的，又需要去避免敏感数据的泄露风险。

政府监管部门也开始关注到了智能车的数据风险，比如去年10月发布的《汽车数据安全管理若干规定（试行）》规定就提到车上摄像头所采集到的人脸、车牌等信息需要进行匿名化处理，意味着车上产生的敏感信息必须要进行脱敏处理。笔者也了解到，自动驾驶发展至今，数据脱敏处理在今年引起了大部分主机厂的重点关注。

那么，数据脱敏具体指的是什么？又是如何进行数据脱敏？数据脱敏在自动驾驶的应用中又面临什么样的挑战？带着这些问题，笔者有幸与行业内的专家进行了交流，包括但不限于中国汽车技术研究中心首席专家兼中汽数据车联网业务部部长张亚楠、中汽数据信息安全室主管刘天宇、木卫四科技的解决方案总监李浩文、信大捷安的IoT事业部总经理王建伟、整数科技的创始人兼CEO林群书等。

在与各专家交流完后，笔者整理出以下主要内容，以供读者参阅。

一、何谓数据脱敏

1.1 数据脱敏的定义一般来说，数据脱敏技术指的是在对敏感数据进行处理的过程中，通过数据变形（将数据变成模型想要的结构，如1234->1**4）的方式来降低数据的敏感程度的一种数据处理技术。

有时候，数据脱敏也会有一些相近的概念，比如去标识化、匿名化及假名化，但数据脱敏与去标识化和匿名化的相关技术本质上是没有任何区别的，而假名化则是匿名化和去标识化的一种技术实现方式。

总的来说，在一定层面上，去标识化、匿名化及假名化，都可以归为数据脱敏。

在大数据时代下，数据脱敏技术并不是什么新鲜技术，它在其它领域中已经被广泛应用，比如政务、金融、医疗、电信等。

在自动驾驶领域，中汽协发布的《汽车传输视频及图像脱敏技术要求与方法》也定义了数据脱敏，其主要指通过一定方法在车端数据处理设备上消除原始环境数据中的敏感信息，使得信息主体无法被识别或者关联，且处理后的信息不能被复原，同时保留目标环境业务所需的数据特征或内容的数据处理过程。

为了让读者更好地理解，我们以人脸脱敏为例做个解释：数据脱敏就是将人脸的关键信息隐去或者模糊化（通俗点说，就是在脸部打了个马赛克），甚至不能让别人通过其它关联信息（比如习惯性出没的地方、本人所穿的衣服等等）来识别出这个人“具体是谁”，并且整个过程是不可逆的，但该人脸的基础语义信息仍然存在，即自动驾驶系统还是能识别出“这是一个人”。

1.2 数据脱敏的类型

从数据脱敏的类型来看，主要可分为静态数据脱敏和动态数据脱敏。

静态数据脱敏指的是数据的管理方将数据抽取进行脱敏处理后，下发给下游环节，供下游随意取用和读写，脱敏后数据与生产环境相隔离，满足业务需求的同时保障生产数据库的安全，例如自动驾驶车辆的系统开发、仿真测试等。动态数据脱敏指的是数据使用方直接访问生产数据的使用场景，其特点为在处理敏感数据时，需要实时进行脱敏，并且也可以实时修改脱敏规则。两者最大的区别在于，静态数据脱敏是在脱离数据生产环境后进行的，而动态数据脱敏则是直接在数据生产环境中进行的。在智能汽车的行驶过程中，车上的大部分敏感数据的产生及处理都是实时的，所以，在自动驾驶领域中，数据脱敏主要是采取动态数据脱敏。

1.3 自动驾驶中数据脱敏的痛点

在中央计算平台的趋势下，智能汽车产生的敏感数据量会比手机更大，甚至无法估量。以感知为例，车端的传感器越来越多，传感器的性能也越来越好，这就造成整个感知系统能够获取到的数据也会越来越丰富。

李浩文说：“如今单车的智能化水平越来越高，从某种意义上来说，车辆实际上已经具备了一定的地图测绘能力”。也就是说，如果一辆自动驾驶车辆跑完全中国的道路，在某种程度上，它就能够把一张中国地图绘制下来，而这里面必然会包含大量的敏感地理位置信息、道路标识信息甚至个人隐私等。这还仅仅只是感知系统带来的敏感数据，但自动驾驶系统又何止感知这一块。不同的系统会有不同的敏感数据产生，并且数据的格式也会非常多样化，这些都会造成日后数据脱敏难度的增加。

面对如此大规模的敏感数据，行业早期在数据应用方面，做得并不规范。在行业发展初期，车企在数据的采集、存储、处理等过程中，没有做到任何数据脱敏措施，数据在采集前是否征得用户允许、数据资产的归属问题等始终处于未解决的状态。

第一，数据的确权问题非常严重。行业早期阶段，车企认为车内外的数据都是车企自己的资产，并且车上获取的数据可以被传输到自己的私有云中。

第二，整个数据运转流程不规范。用户在车内的信息（如视频、音频等）是在不经允许的情况下被采集，或者是在用户不知情的状态下，默认勾选了数据采集的“同意选项”。再者，整个车联网系统缺少数据的保护意识，容易被黑客入侵，造成用户的隐私信息被盗窃。归根结底，造成行业内数据应用不规范的主要原因是数据脱敏相应的政策法规不成熟导致的。

虽然，近两年，从国家法规层面到行业标准层面，智能汽车数据脱敏的相关政策频繁出台。值得注意的是，如《汽车数据安全管理若干规定（试行）》，除了列举出了6大类敏感数据外，也规定了敏感数据处理的标准原则，例如车内处理原则、默认不收集原则等，这些规定让行业对智能汽车的数据脱敏有了大致的方向。

表：数据脱敏相关政策的进展情况（按发布机构层级划分）

个别政策法规对敏感数据进行了划分，明确了具体哪些数据属于敏感数据。直至中汽协在今年8月发布的《汽车传输视频及图像脱敏技术要求与方法》，该行业标准细化了对于车外的人脸、车牌的脱敏技术细节。但纵观这些政策法规，现阶段的政策法规仅属于一种大的框架，并没有严格地去定义如何去做数据脱敏、又该脱敏到什么程度。再者，人脸和车牌仅仅是自动驾驶系统中感知环节所产生的敏感数据，而感知环节产生的敏感数据又不仅限于这些数据。甚至，在定位、决策、控制环节中，车辆也会产生大量的敏感数据，比如道路定位信息、车辆的操控习惯等等，而针对这些数据，行业内目前并没有相关政策或者技术标准要求的出台。不少专家也提到，现阶段关于数据脱敏的政策法规相对比较粗浅，各家主机厂都是在一个大的框架下去完善自己的数据管理规范。关于数据脱敏的技术要求和方法的出台时间，张亚楠说：“目前还在制定当中，预计很快就会面世。”

二、如何进行数据脱敏

那么，了解了何为数据脱敏后，智能汽车中具体是如何进行数据脱敏的？在数据脱敏的过程中，又需要注意哪些事项？

关于数据脱敏的具体步骤，某主机厂信息安全工程师介绍道：“数据脱敏主要处于数据全生命周期的处理环节，首先，技术人员需要对数据做好分类分级，并把敏感数据识别出来，要确定哪些数据属于敏感数据字段；其次，需要确定具体的脱敏策略；再者，将制定好的脱敏方案给到执行者，执行设定好的脱敏方案；最后，在数据脱敏执行完毕后，对于整个数据的执行过程也会有一些审计工作。”

2.1 敏感数据的分类分级

既然数据脱敏的第一步是要先对敏感数据进行分类分级，但智能汽车上所产生的数据庞大且复杂，那么，在理清楚这些数据资产时，就需要整理出一份数据资产的目录清单。

那么，哪些数据是敏感数据？又该按照什么样的逻辑或者标准来进行分类分级？从宏观层面来看，敏感数据主要可分为3类：结构化数据、非结构化数据及半结构化数据。

结构化数据是指可通过二维表结构来表达和实现的数据，比如银行账号、身份证号码、手机号、日期等；

非结构化数据是指数据结构不规则或不完整，没有预定义的数据模型，比如图像、声音、文本等；

半结构化数据是指介于完全结构化数据和完全无结构的数据之间的数据，比如HTML文档、JSON、XML等。

但智能汽车上的数据量非常大，数据类型也非常杂，不能单纯以这三个维度来对敏感数据进行分类分级。某主机厂信息安全工程师说：“国内的《网络安全法》提出了数据需要做到分类分级，随后出台的《数据安全法》也更加明确数据需要做到分类分级，但各行各业的数据类型比较丰富，国内没有一个统一的标准去对数据进行分类分级， 2021年，汽车行业内出台了《车联网信息服务数据安全技术要求》对数据分类分级做出了一定标准，但它并不是一个强制性标准。”

图：《车联网信息服务数据安全技术要求》中数据分类标准

李浩文也提到，智能汽车领域未来必然会有更细的数据分类分级规范，但现阶段已出台的规范也仅仅做到概念级的建设指引，恐怕对于主机厂来说，仅凭这些标准来做一些实操工作，其难度会有些大。结合多位专家的观点来看，智能汽车行业目前尚未形成细化的数据分类分级标准，主机厂需要根据自身的实际业务需求，从不同场景、不同功能等维度出发，去做敏感数据的分类。同时，在分类完后，主机厂仍需要根据不同等级的敏感程度，对数据进行分级（如一般、重要、敏感），并对不同级别采取不同的脱敏策略。

2.2 选择合适的脱敏策略

在梳理完数据资产后，又该如何选择脱敏策略？

脱敏规则指的是在原始脱敏算法的基础上，将一种或者多种脱敏算法进行组合，并应用于特定场景下的敏感数据，而脱敏策略指的是在不同场景下选择怎样的的脱敏规则。

表：脱敏算法、脱敏规则、脱敏策略概念示例

在智能汽车行业中，目前还没有形成统一的脱敏技术规范，各家主机厂在采用相关技术或策略时，都借鉴了一些已出台的信息安全相关标准规范，如《信息安全技术个人信息去标识化指南》。

一方面，不同类型的数据所对应的脱敏算法和脱敏策略都不同。根据《汽车传输视频及图像脱敏技术要求与方法》中的介绍，非结构化数据（如人脸、车牌）一般采用的是统一色块的脱敏算法，即用统一色块对视频中每一帧中的人脸和车牌位置信息进行替换，通过色块替换直接擦除原图上像素级别数据，确保擦除后的数据信息不可逆和不可复原。

图：人脸脱敏示意图

而掩码、取整等脱敏算法主要用于车主的身份信息、自车的车牌号、车控数据等结构化数据。以车主的个人姓名为例，需要应用映射技术（Hashing）将车主名“张三”变为对应的hash值“456684923”。

图：部分结构化数据相关的脱敏算法示例（数据来源：《数据脱敏技术的探究与实现》）

另一方面，为了满足特定场景的需求，更多地是需要有针对性且多样化的脱敏算法和脱敏策略。在不同的场景下，车辆的感知系统所获取到的敏感信息是不同的，比如在高速场景下，自车感知系统获取到的敏感信息大部分是前方车辆的车牌，那需要对这些车牌采用统一色块的脱敏算法；而在城区场景下，除了前方车牌需要脱敏外，可能还会有很多行人和周边建筑物信息等敏感数据，需要对人脸采用统一色块的脱敏算法的同时，也要给敏感建筑信息采用偏转的脱敏算法。也就是说，面对不同的场景特性，敏感数据的差异就会导致脱敏策略的不同。此外，脱敏策略不仅仅是采用一种脱敏算法，而是会采用两种以上的脱敏算法。王建伟说：“在不同的场景下，数据脱敏相关供应商一定会给主机厂提供很多模型，主机厂会根据不同的场景、不同的业务需求、不同的监管要求来做针对性的处理。”总的来说，脱敏策略的选择必然不是“一招吃遍天下”，而是需要针对不同数据、不同业务场景等，做有针对性的开发。

2.3 让脱敏对自动驾驶系统的影响最小化

自动驾驶的首要原则是安全，而数据脱敏是否会造成过度脱敏，从而影响自动驾驶系统整体的安全水平，又如何让脱敏对自动驾驶系统的影响最小化？

首先，数据脱敏的最终目的是减少或消除敏感信息，从而减小数据安全带来的风险，而不是阻碍自动驾驶的发展，敏感数据在进行脱敏后仍然需要保留目标的基础语义信息。李浩文说：“车辆在采集完数据后，数据并不一定需要存储或者传输到后端，自动驾驶系统只需要识别出前方目标物具体是什么，根本没必要识别出目标物中的人的面部特征、年龄甚至性别，或者这辆车是什么品牌、车型或车身细节。”

其次，现阶段先感知融合、再做数据脱敏是较为可行的方案。如果数据是先融合后再脱敏，不仅不会降低融合的效果，也可以减少时延的影响。此外，融合后甚至可以直接销毁敏感信息，减少不必要的存储空间占用，但从感知到控制的整个过程中，由于数据未脱敏，数据传输过程需要加入一些数据加密的措施，这对加密算法的强度要求较高，最终会导致数据处理难度会加大。如果数据是先脱敏后再融合，自动驾驶系统对敏感信息的保护难度会降低很多，但也会影响自动驾驶系统的算法训练。

另外，若要先做数据脱敏，传感器在获取数据时就需要先对敏感数据进行脱敏，而这意味着需要对传感器芯片做一定改造（比如加入某些安全芯片或者植入某些特定算法），这会造成传感器功耗上升，从而降低传感器的耐久性。相反，在域控制器上处理数据脱敏，可以使用安全芯片（配有相应算法）或者SDK（数据脱敏软件包），让整个数据脱敏更加标准化，这对相关软硬件架构的影响是最小的。刘天宇说：“理论上来说，传感器芯片或者域控制器处理都可以做数据脱敏，只要算力能够满足要求即可。一般来说，我们建议是在域控制器上处理，这样可以避免对传感器芯片的改造，而且域控制器能够使用传感器获取的原始数据进行融合，然后再进行脱敏处理，可以实现对自动驾驶系统的干扰最小化。”

综合来看，先做感知融合、再做数据脱敏的方案是对整个自动驾驶系统的影响是最小的，也是较为可行的方案。

2.4 数据在全生命周期中需要加密

通常来说，数据脱敏仅在数据处理环节出现，但实际上，数据脱敏其实在数据的整个生命周期中都是存在的。

数据的全生命周期包括采集、传输、存储、使用、共享、销毁。如果主机厂先做融合再去做脱敏，那数据也会经历传输、存储等，要么数据是直接脱敏后再去传输或者存储，要不然在些环节中数据也是有一定的安全风险。王建伟说：“数据从某个ECU到域控制器的过程中，在每个数据处理节点都会伴随着一定的被攻击的风险，所以每个节点都需要做加密处理来保证数据的安全，并且还需要做整个车联网的身份认证。再者，未来车内无线通信可能会逐渐增多，比如通过蓝牙、WiFi及UWB的方式，而这种通信方式是最容易被黑客攻击的。”

李浩文说：“加密算法在应用上不像数据脱敏算法那么丰富，它严格遵循的是数学方法，而最常用的则是对称加密、非对称加密和摘要算法等，并且通常情况下，密钥长度会与加密强度呈正相关。”针对不同类型的数据，在加密策略的选择上也是有区别的。某主机厂信息安全工程师说：“对于一些不敏感的数据，只需要采用一些弱的加密；对于一些非常敏感的数据，比如车控的数据或者蓝牙钥匙信号，可能需要采取较强的加密措施。”

三、自动驾驶数据脱敏的市场格局

3.1 玩家类型

数据脱敏的主要玩家是主机厂和第三方数据服务商，并且主机厂会是数据脱敏业务的主导方。

（1）主机厂优势：主机厂业务部门会更了解自身业务，在法律法规的指导下，区分哪些是敏感数据，哪些是非敏感数据。李浩文说：“对于主机厂来说，通常情况下数据脱敏是需要从内部做起的，某些主机厂的整个自动驾驶系统都是自己写的，或者至少是由相关供应商提供，如果工作到位的话，是很容易识别哪些数据是敏感数据。对于数据脱敏算法，业内的相关公开方案也有很多，这并不是难点。”挑战：数据脱敏所面对的数据量非常庞大，是一个系统性的大工程，需要大量技术人员，而主机厂相关人员储备不足。李浩文继续说道：“当前，某些主机厂确实缺少相应的复合型人才，比如那些能理解数据脱敏的法律条文，也能够对照条文将敏感数据一一梳理出来的人才。再者，现阶段主机厂也确实人手不够，或者缺少数据梳理工作，所以主机厂才需要第三方数据服务商来帮助他们梳理数据资产。”再者，一些主机厂认为，若将敏感数据交由第三方服务商处理，可能存在数据泄露的风险。

（2）第三方数据服务商（比如木卫四科技、信大捷安、中汽数据等）优势：专业性较强，有一定的人才储备。第三方的数据服务商无论是在专业能力上，还是在技术人才的储备上，都会优于主机厂。他们在其它行业内有过丰富的数据脱敏项目经验，相关脱敏技术的应用熟练度也较高。挑战：第三方在为主机厂提供数据脱敏服务时，还需要做一些脱敏模型的二次开发。某主机厂信息安全工程师说：“第三方数据安全厂商在其他行业，如政务、金融行业，可以做一些常见的数据字段类型的脱敏业务（如姓名、身份证号、手机号等），但汽车行业，车端的数据类型非常多，比如车内语音图像数据、车控数据、环境感知数据等等。
所以，智能汽车上会有一些新的数据类型，对于这些数据，数据安全厂商可能没有现成的方案可以直接适配，需要对现有的数据进行人工打标签，再对脱敏工具进行二次开发和调试。”

3.2 商业模式

目前，主机厂在数据脱敏业务上缺人也缺经验，所以仍然会选择以外部合作为主，那么，具体合作模式是什么样？

首先，第三方数据服务商会连同tier 1（比如T-box、传感器等供应商）为主机厂提供咨询服务，帮助其梳理数据资产，并给出咨询方案。王建伟说：“主机厂也不会直接去向第三方数据服务商进行采购，还是会先去找自己的零部件供应商或者tier 1（毕竟数据最终还是这些零部件产生的），告诉他们对于数据脱敏业务的需求细节，包括需要做到什么样的脱敏效果，同时会给与零部件供应商或者tier 1几个可供选择的第三方数据服务商。”

其次，在给出咨询方案后，第三方数据服务商也会提供相应的软硬件产品：安全芯片+数据脱敏SDK，而这些都会集成在T-box上，一同提供给主机厂。

其中，安全芯片主要是针对汽车的信息安全，提供相应密钥或者数据保护算法的硬件产品，可应用于T-BOX、数字车钥匙、V2X等；数据脱敏SDK是指集成了脱敏算法，预留脱敏数据输入和输出接口的软件开发包。算法SDK一般具有一定的兼容性，多种图片格式可以做转化，刘天宇说。

关于对数据脱敏SDK的理解，李浩文说：“数据脱敏SDK作为附属软件，它并不是独立存在的，一般跟自动驾驶的主程序或者其它数据处理程序融合在一起，往往以库的形式存在，就好比是微信软件中的某一个细分功能。并且，数据脱敏SDK内部的脱敏策略都是可配置甚至在线升级调整的，就如自动驾驶的主程序一样，它也会定期升级。”最后，在盈利模式上，第三方数据服务商通过收取咨询服务费及出售软硬件产品来获取收益。

四、数据脱敏在自动驾驶应用中的挑战

4.1 敏感数据来源的多样化

自动驾驶车端的敏感数据会来自于自动驾驶系统的感知、定位、决策、控制各个环节。

比如在感知系统中，传感器可不止是相机。其它的传感器也同样会有一些敏感信息出现。以FMCW激光雷达为例，除了可以获取到一些测速测距的深度信息外，激光雷达甚至可以配合其它传感器，实现三维的实时建图。当前，炙手可热的4D毫米波雷达，相比于传统的毫米波雷达来说，它具备了如同激光雷达的一样的点云生成能力，并能够获取到物体的高度信息，比如桥墩的高度信号等。一方面，不同类型的传感器会带来不同的敏感数据；另一方面，不同类型的传感器所能提供的敏感数据等级也略有不同。

相机带来的是帧图像的数据格式，而激光雷达和毫米波雷达带来的则是点云形式的数据格式，在数据脱敏时，必须要在理解传感器的前提下，才可能更好地处理敏感数据。

即使同一类型的传感器，由于来自不同供应商，传感器带来的数据格式也有可能不同，需要对它们各自的数据分别进行脱敏处理。

一般来说，相机所能获取到的敏感数据量会多于激光雷达，更多于毫米波雷达，而数据敏感程度上，相机的数据敏感程度也更高于其它二者。

表：各传感器之间的敏感数据情况

虽然，《汽车传输视频及图像脱敏技术要求与方法》对人脸和车牌的脱敏处理做了一定的规范，比如图片的大小、清晰度等，但对于其它类型的数据或者其它传感器所带来的敏感数据，行业内并没有做出任何指引规范，各家主机厂也都是处于摸索中，或者干脆就不去关注这方面。

4.2 数据脱敏的程度较难把控

敏感数据到底需要脱敏到什么程度，才可以真正实现敏感信息的完全脱敏？同时，数据脱敏是否会由于过度脱敏而造成某些关键信息的损失？

以人脸或者车牌的脱敏为例，相关的规定也做出了一定的约束，从技术上来说，要把这类图像脱敏到“刚刚好”，或许并不会有很大的难点，但事物之间是有一定的联系存在的，当数据量级达到一定程度时，也可以通过某些信息来推断出某人的个人信息。李浩文说：“虽然通过脱敏技术对某个人的人脸进行了脱敏处理，但还是可以从他的衣服、步态或者他个人经常性出没的位置等交叉信息，来推断出他的个人信息。再比如，我们在做手机号码的脱敏时，会常去把中间4位号码隐去，但那也只有1万种排列组合的可能性，数据仍然有被推演出的风险。”

4.3 车端硬件性能的占用

智能汽车上的硬件性能非常有限，也非常宝贵，那么算力在保证自动驾驶系统安全运行的同时，是否也会满足数据脱敏的需求？对此，笔者在与各个专家进行了探讨，专家们的结论各不同，形成了两种不同的答案。先给出结论：短期内，数据脱敏不会对车端的硬件造成过多的性能占用，但长期方向上，随着敏感数据的不断增加，数据脱敏对车端硬件性能的占用可能会成为一个挑战。

从短期来看，如果只做图像脱敏处理，对于带有浮点运算的SoC芯片来说，脱敏对硬件的消耗并不大。目前的脱敏规范仅限于车外的人脸及车牌信息，对于其它的敏感数据是否要进行脱敏，甚至如何进行脱敏，其实并没有相关标准出台，这也在一定程度上将车辆上所需脱敏的数据范围缩小到了一个当前算力所能承受的范围内。

根据已落地的项目经验，刘天宇说：“以高通8155芯片为例，部署脱敏算法后，CPU占用率低于10% （不需要使用GPU算力），其余占用资源为：模型参数量<3M、FLOPS<5G、运行ROM< 30MB、运行RAM<100MB、运行CPU<10kDMIPS。”

从长期来看，随着敏感数据的定义不断明朗化及中央计算的电气架构趋势下，车端敏感数据的范围会被扩大，同时如果大量的数据都集中在中央控制器上处理，现有的SoC性能未必能在保证自动驾驶系统正常运行的情况下，再去处理数据脱敏，显然到那时候就需要更多的算力支持。