AI语音生物识别技术将为未来生活带来更多乐趣

2021-02-07 14:10:45 互联网

人工智能语音生物识别足够准确，可以进行身份验证。

在无处不在的消费物联网细分市场中，随着应用机会越来越多，各种娱乐、通信、家庭自动化、安全性以及其他各种设备层出不穷，使得人们的兴趣和需求越来越旺盛。对更具沉浸感和感知力的人机交互的需求是推动智能家居中边缘AI需求的关键因素。

其中人工智能（AI）的进步使语音生物识别技术具备了足够的准确性，不仅可以用于身份识别和个性化，还可以用于支付认证等应用。近期Synaptics和ID R&D公司的一项新解决方案提供了人工智能驱动的语音生物识别和反欺骗算法，可以在边缘设备的Synaptics SOC上运行。具体来说，该软件已针对Synaptics的VS600系列中的神经处理单元(NPU)进行了优化，从而适用于机顶盒、智能音箱和安全系统等智能家庭设备。

See the source image

Synaptics将其具有人工智能功能的SOC应用到需要处理视频流、音频流和图像的智能家居产品中。例如，最典型的就是带有用于视频会议摄像机的机顶盒。

Synaptics市场副总裁Vineet Ganju表示:“在机顶盒应用程序中，使用语音作为界面交互方式已很普遍。可以启用语音遥控，这样你就可以对着它说话，导航你的Netflix账户，搜索电影……语音作为界面几乎正在成为这些应用程序的标准。”

当机顶盒运行Netflix时，用户要做的第一件事就是选择使用谁的配置文件。有了语音生物识别技术，机顶盒可以立即知道谁在看，从而在整个操作流程会简单一些。

Voice biometrics in smart fridge

语音生物识别技术现在已经足够精确，可以在智能家居设备上进行支付认证

Ganju：“例如，对于按次付费的内容，你不仅可以通过语音搜索找到某些可能不属于订阅内容的电影，运营商希望能够立即进行身份验证，让你当场购买这部电影。他们认为这不仅帮助用户找到自己的个性化内容，还让他们能够为这些内容付费并观看。”

在设备上进行语音注册

ID R&D公司的语音生物识别人工智能从声音中提取了400多个特征，包括与频率/音高相关的参数组合，以及如发音和口音等其他东西。

ID R&D公司销售的高级副总裁John Amein介绍：“它不像早期的语音生物识别技术那样受到限制。直到去年左右，人工智能语音生物识别技术才达到了支付认证等应用所需的准确性。”

该算法通过一个名为“（enrollment）注册”的过程来学习识别用户的声音。在注册过程中，用户将一个短语重复三次。任何短语都可以使用，它适用于任何现成的语言。这些过程将在边缘设备上处理。

ID R&D的人工智能算法误认率低于1 / 10000，这与有人猜测你的密码的几率相比显然低得多。错误拒绝率表示登记用户的声音被错误拒绝的比率，它也在5%左右。此外，用于欺骗攻击的欺骗通过率(SAR)，例如对系统播放的用户语音的记录，高于7%，这是对Android设备的生物测定解锁的标准上限。

Amein：“生物特征匹配的误接受率为万分之一，而反欺骗比安卓标准要求的7%要高，我们所做的是让语音生物识别技术被接受作为支付的授权足够安全。”

反欺骗

ID R&D公司的反欺骗技术也依赖人工智能。

Amein:“语音的带宽高达3500Hz，我们的采样速率要比这个高得多。所以我们听到的频率比说话的声音要高。我们在这些更高的音域里可收听不同的特征。”

通过我们管状声道产生声音的特征频率与平面振动产生的声音非常不同，比如扬声器。这是反欺骗人工智能用来区分现场声音和录音的关键因素之一。

“我们还可以检测合成的声音，比如文本到语音的应用程序，其中很多都不是那么出色，但它们变得越来越逼真。在这种情况下，信号仍然存在一些异常，在某些情况下，信号太过完美，或者只是耳朵听不到的过渡或相位差异，但人工智能可以。”

神经处理单元在语音处理的妙用

Synaptics的VS600系列SOC具有神经处理单元，Synaptics的Vineet Ganju表示，VS680的NPU提供6.75个TOPS，而新发布的VS640提供1个TOPS，减少的原因在于，要实现更主流的成本、性能和功耗。这两部分的NPU都拥有“足够多的”算力，可以同时运行ID R&D公司的语音生物识别算法和反欺骗程序。与使用芯片的CPU相比，NPU能够将语音生物识别推断的速度提高10倍，而CPU的利用率则降低了3倍。

Synaptics为ID R&D等公司提供了一套工具来优化NPU的技术，虽然ID R&D是Synaptics在这方面的第一个合作伙伴，但该公司未来将与更多的合作伙伴合作语音生物识别以外的应用。

近期，他们推出了SyNAP工具，该工具支持专门针对VS600 SOC中的处理器进行优化。开发人员可以使用SyNAP优化功能来配置其身体姿势估计模型，例如，使其能够以每秒30帧的速度在VS600 SOC上实时运行。

Ganju表示:“根据我们与语音识别公司的合作，我们实际上可以在设备上做一个完整的英语词汇语音识别引擎，这也在NPU的最高能力范围内。因此，在语音识别方面，你可以拥有一个完全脱机的产品……例如，对于用户不能立即连接到WiFi，车载语音识别可以帮助他们在连接之前就获得良好的即时体验。”

ID R&D公司的第一个软件版本将于1月晚些时候在Synaptics的VS600开发套件上发布。