基于Kaldi的语音识别引擎的架构设计方案

2025-03-10 15:00:05 互联网

1 概述

语音识别技术，是将语音信号转换为文本内容的技术。目前比较流行的语音识别技术主要有两种。一种是基于Kaldi的传统语音识别技术，另一种是目前流行的基于深度学习模型的端到端语音识别技术。Kaldi是一种大而全的语音识别处理框架，集成了数据预处理、特征提取、声学模型建模、语言模型建模、解码等，识别效果上能够满足大多数的语音识别场景。但是Kaldi是自成一体的框架，没有现在流行的pytorch、tensorflow框架的支持，需要开发者自行开发能应用到生产环境中的服务。基于深度学习模型的端到端语音识别框架是指将语音信号直接输入到深度学习模型中，通过端到端的方式进行语音识别，无需使用传统的声学模型和语言模型，常见的基于深度学习的端到端语音识别框架有很多，比如EspNet，WeNet等，这类语音识别框架有更通用的模型训练和部署框架支持，有着更好的识别性能和识别效果。

58自研语音识别引擎，最初是基于Kaldi框架进行开发，在自研初期上线了架构1.0版本，后续以降低机器资源、提升资源利用率、优化性能为目标进行了升级重构，上线了架构2.0版本。本文将介绍基于Kaldi的语音识别引擎的架构设计，介绍从架构1.0到2.0版本的优化历程。首先介绍业务背景，然后介绍Kaldi语音解码的优化，以及后端服务的各种优化，最后是优化取得的效果。

我们也在持续探索基于深度学习模型的端到端语音识别，尝试了ESPNet，WeNet等流行的端到端框架。在2021年12月引入了端到端WeNet语音识别(由出门问问和西北工业大学于2021年1月开源)，经过持续的优化，WeNet解码服务在效果和性能上都超过了Kadli解码，在2022年8月份，我们在线上全量替换了Kaldi语音解码服务（WeNet端到端语音识别技术在58同城的大规模落地）。

2 背景

58同城是国内领先的生活分类信息网站平台，涉及业务有招聘、房产、车、本地生活服务（黄页）等。语音是平台上商家、用户、销售、客服之间沟通的主要媒介。

58平台上的B端商家和C端用户会使用电话、微聊进行语音沟通，同时58呼叫中心支撑着数千名销售、客服人员工作，年通话时长数百万小时。这些场景下产生了海量的语音数据，这些语音数据经过语音识别转为文字之后，对于语音质检、信息治理和用户画像等任务有巨大的价值。此外，AI Lab团队研发了可以提高人效的语音外呼机器人，典型应用为销售机器人“黄页销售智能外呼助手”和面试机器人“神奇面试间”。3 架构1.0

3.1 架构1.0的背景
..

查看全文