中电网移动|移动中电网|高清图滚动区

新一代语音识别:可彻底改变车内体验的技术,来了解一下!

语音识别是设备对语音命令做出响应的能力,它实现了对各种设备的免提控制。该技术最早的应用是自动电话系统和医疗听写软件。现在,在汽车和智能手机中语音识别技术有了更广泛的应用,比如苹果的Siri和特斯拉汽车中的语音命令都采用了先进的语音识别技术。

在汽车中,语音助手的非常大好处是,它可以让驾驶员的眼睛始终盯着道路,而手一直放在方向盘上,同时还能获得安全且免提的车内体验,包括接打电话、选择电台、设置导航或播放音乐等。现在,车载语音助手已成为大多数车辆的标准功能。

汽车语音助手的兴起

汽车语音助手是一种语音识别控制系统,它允许驾驶员用语音控制车辆的功能和特征,比如用于车辆的气候控制、娱乐设置、导航和其他功能,还可用于免提通话和发送短信。

本田是最早在汽车中使用语音识别技术的汽车制造商之一,该公司于2004年提供了一种语音导航系统,主要用于音频、DVD和车内环境控制的语音命令和控制功能。随着时间的推移,汽车中的语音识别技术有了较大改进,如今,汽车中的语音识别技术已经能够准确解释驾驶员的命令并执行较复杂的操作。 

早在2022年3月,大众汽车就已选择将Cerence公司的语音AI Cerence Drive 2.0系统集成到大众高尔夫8 GTI中,所使用的Cerence Drive 2.0系统于2021年推出,它将自然语言理解和文本到语音技术等功能整合到一个堆栈中,使得汽车语音识别系统有了较高的响应速度。Siri、Alexa、Maluuba和Cotana等虚拟语音助手的日益普及,为我们的生活提供了便利,人们也因此更加习惯通过语音进行车内控制的各种新兴应用。自动驾驶汽车的出现更是有力推动了汽车语音识别系统的发展。

根据Precedence research的数据,2023年,全球汽车语音识别系统市场价值为28.9亿美元,预计到2032年将超过约111.7亿美元,在2023年至2032年的预测期内,复合年增长率将达到16.20%。

目前,语音识别系统市场的市场参与者正在大力投资生物识别和人工智能技术,在未来几年将为汽车识别系统市场提供更多增长机会。

图2:2022年至2032年汽车语音识别系统市场发展趋势.png
2022年至2032年汽车语音识别系统市场发展趋势
(图源:Precedence research)

来自Vynz research的分析结果表明,2023年,汽车语音识别市场的价值为28.1亿美元,预计到2030年将达到68.7亿美元,在2025年至2030年的预测期内的复合年增长率为16.41%。

两家机构的预测数据非常接近,从中我们也可以看出整个行业对汽车语音识别市场抱有的良好预期。

汽车创新中的语音识别技术

近年来,语音识别技术彻底改变了消费者与汽车的互动方式,从个性化的语音交互到提高安全性和整体用户体验的免提操作,语音技术已成为推动汽车创新的催化剂。

特斯拉(Tesla)基于上下文的语音命令的实现代表着汽车语音识别技术在应用上有了重大突破,这项技术可以让用户更直观地与他们的Tesla汽车进行互动。

例如,用户可以直接说出自己的目的地,车辆就会为你规划出行车路线图,简化了导航过程。此外,该系统还能够理解先前命令的上下文,具备复杂的自然语言理解能力,比如通过语音调整车内温度设置。这一能力展现出增强车载语音控制系统的潜力,也证明了投资先进语音识别技术的重要性。

对于车载语音助手来说,获得准确而清晰的语音信号始终是一个重大挑战。道路和风噪以及多个人使用语音设备可能会干扰语音识别的准确率。目前的车载语音识别系统大多使用了波束成形技术,该技术使用一维“到达方向”参数对声音场景进行建模。

然而,在汽车等封闭空间中,声波往往会从窗户和面板上反弹,因此,在建模之前还需要部署一个麦克风阵列用来接收从数百个方向到达的语音信号。如今,语音识别的准确性已经显著提高,在包含数万个单词的词汇表中,错误率可降至5%左右。

语音控制为控制现代汽车上复杂人机接口(HMI)功能提供了一种安全方便的解决方案。开发人员利用机器学习 (ML) 和语音建模的强大功能,使用定制命令和多个唤醒词将本地语音控制功能添加到汽车语音助手等应用中。

NXP拥有一系列语音控制和通信软件和系统解决方案,为人对人和人对机器的语音应用提供高质量、可靠的嵌入式语音处理。其产品组合中的新成员——智能语音技术 (VIT),是一种全面的先进语音控制软件解决方案,可作为MCUXpresso软件开发套件 (SDK) 中的现成软件库。VIT软件基于先进的深度学习和语音识别技术,提供了完整的远场音频前端(AFE),支持多达三个麦克风、一个始终开启的唤醒词引擎和一个语音命令引擎,以及生成客户定义的唤醒词和语音命令模型的在线工具。

如前所述,实现可靠的设备端语音控制并不是一件容易的事,开发人员还需要选择高性能信号处理硬件平台以及相应的语音处理软件,包括AFE波束成形器、单独的唤醒词引擎和语音命令引擎等。VIT软件可在基于Arm Cortex-M7和M33、Cadence Xtensa HiFi4和Fusion F1内核的NXP i.MX边缘处理平台上使用。目前,支持VIT的i.MX 跨界MCU平台包括:

•  i.MX RT500 MCU(配备M33、DSP和GPU内核)
•  i.MX RT600 MCU(配备M33和DSP内核)
•  i.MX RT1060 MCU(配备M7内核)
•  i.MX RT1160 MCU(配备M7和M4内核)
•  i.MX RT1170 MCU,搭载1 GHz MCU(配备M7和M4内核)

其中,i.MX RT500跨界MCU是双核微控制器,采用Arm Cortex-M33核和Cadence Xtensa Fusion F1 DSP,专为低功耗应用而设计。i.MX RT500 Cortex-M33内核的运行频率高达275MHz,包括两个协处理器,可提供更高的性能。Fusion DSP的运行频率高达275MHz。该系列提供丰富的外设、嵌入式安全性和超低功耗,具有高达5MB SRAM和两个FlexSPI,每个FlexSPI具有32KB缓存。

另一款i.MX RT1170跨界MCU集成了Arm Cortex-M7和Arm Cortex-M4内核,具有实时性能和高度集成。i.MX RT1170 Cortex-M7的运行频率高达1GHz,Cortex-M4的运行频率达到400MHz,同时具有2MB片上RAM。

这款实时MCU提供各种存储器接口和丰富的连接接口,包括3个支持TSN/AVB技术的高速以太网接口以及UART、SPI、I2C、USB和3个CAN-FD接口。此外,i.MX RT1170还增强了内置安全,包括安全启动和加密引擎。

图4:支持VIT软件的NXP i.MX RT1170跨界MCU系统框图.png
支持VIT软件的NXP i.MX RT1170跨界MCU系统框图(图源:NXP)

汽车语音识别技术的四大挑战

语音识别技术已经存在很长时间了,尽管汽车语音助手的受欢迎程度稳步上升,但在实施和开发语音识别技术时我们很可能遇到以下四个挑战:

1. 准确性的挑战

语音识别系统(SRS)的准确性必须很高才具有实用和商业价值。根据近期的一项调查,73%的受访者声称准确性不高是采用语音识别技术的主要障碍。在试图提高语音识别模型的准确性时,背景噪声带来的影响非常大。

解决方法可以从三个方面入手:一是在开发模型之前了解用户的使用环境,然后选择一个声源方向性好的麦克风;二是利用线性降噪滤波器如高斯滤波器来平抑噪声;三是构建一个去噪算法,以便在输入/输出声音时对信号进行平滑处理。

2. 语言、口音和方言覆盖率的挑战

目前,没有一种SRS可以覆盖所有的语言、方言和口音。克服这一挑战的一个有效方法是扩展数据集。只有足够多的数据集才能为SRS提供AI/ML模型训练。

3. 数据隐私和安全的挑战

人的语音记录可以被用作他们的生物特征数据。因此,许多人对使用语音识别技术持犹豫不决的态度。这个问题目前没有更好的解决办法,企业唯一能做的就是尽可能保持应用的透明度,并允许用户通过设置选项来限制数据收集。

4. 成本和部署的挑战

开发和实施SRS是一个成本高昂且持续不断的过程。如果SRS需要覆盖各种语言、口音和方言,则需要训练一个大型数据集。在此过程中,数据收集过程需要大量的资金,训练模型需要有强大的算力支持,高质量的麦克风价格非常昂贵。随着汽车语音识别系统市场需求的不断上升,预计语音识别系统的价格在未来会逐步下降。

未来展望

Capgemini Research Institute 的研究数据显示,2022年,77%的消费者使用了汽车语音助手进行娱乐和导航,超过60%在驾驶时使用过语音助手的人在购买决策中考虑了汽车语音助手的可用性。

语音人工智能(AI)的崛起使得汽车变得更加自主、更加个性化,消费者对使用语音人工智能来提高驾驶体验的兴趣越来越大。目前,语音控制系统大多是一套基本的命令。当对话式人工智能出现后,这些系统将能够理解多种形式的对话,并与用户之间开展多功能的和自然的互动。其中,精确的语音交互技术将是技术改进的重点。一个高集成度、功能齐全的汽车语音助手可以提供准确的语音识别,有助于实现汽车语音识别从小众到广泛采用的转变。

将ChatGPT集成到梅赛德斯-奔驰汽车公司的车辆中是汽车行业使用语音技术的重大进步。数字语音助手为制造商提供了一个增强用户体验的机会,并根据驾驶员的要求为新的服务和收入机会提供了平台。预计到2028年,全球销售的新车中将有近90%搭载语音助手。

汽车行业一直是专利创新的热土。互联汽车的兴起、人工智能(AI)、机器学习(ML)和自然语言处理(NLP)等技术的日益完善,进一步推动了汽车领域的创新活动。Global Data在关于汽车创新的报告中指出,仅在过去三年,汽车行业就有超过170万项专利申请和授权。语音技术的进步为汽车行业改善用户的驾驶体验开辟了新的机会。从个性化语音交互到免提操作,语音技术已成为汽车创新的关键要素。

猜你喜欢
中电网移动|移动中电网|频道导航区