本书系统地介绍了语音识别在大模型时代的新技术与新应用。全书共16章,原理部分涵盖声学特征、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、深度神经网络(DNN)、语言模型和加权有限状态转换器(WFST)、语音大模型,重点描述了GMM-HMM、DNN-HMM和端到端(E2E)三种语音识别框架;应用部分包含Kaldi、WeNet、FunASR和sherpa-onnx等工业应用实践介绍,内容主要来自工程经验,极具实用性。
洪青阳,厦门大学人工智能学院教授,主要研究方向是语音识别、声纹识别,先后主持国家自然科学基金三项,科技部创新基金两项。牵头组建厦门大学智能语音实验室,带领XMUSPEECH团队连续两届获东方语种识别(OLR)竞赛第一名,成功研发闽南语识别与合成系统。具有丰富的工业研发经验,与华为、海思、海信、鼎桥等知名企业合作,承担过大量的智能语音项目,核心技术应用到华为智能手机、说咱闽南话AppPP、声云语音转写和全国十几个省市的司法/社保/证券/电力系统。发布国内第一套声纹识别开源工具ASV-Subtools,助力学术研究和产业落地。担任2020-—2021年全国声纹识别研究与应用学术研讨会主席、中文信息学会语音信息专委会副主任等职。获电子工业出版社“优秀作者奖”和华为“优秀技术合作成果奖”。从事本科生、研究生的语音识别教学工作近二十年,从最早的动态时间规整(DTW)、隐马尔可夫模型(HMM)到最新的端到端(E2E)语音识别、大模型框架,与时俱进更新教学内容,积累了丰富的教学经验。李琳,厦门大学教授,博士生导师,主要研究方向为语音信号处理、声纹识别、智能系统设计,主持国家自然科学基金两项,负责国家科技部重点研发计划项目子课题一项、省级科研项目一项,作为第一合作者参与国家自然基金两项,曾获福建省科技进步奖二等奖、福建省教学成果奖特等奖/二等奖、厦门市科技进步奖一等奖。