依图科技语音算法面试经历：ASR+TTS+语音合成全链路考察

面试2025年4月18日作者: 美历团队

2年语音算法经验，详细复盘依图科技语音算法工程师三轮技术面试，涵盖语音信号处理、ASR、TTS、语音合成等全链路考点

背景介绍

我入行语音算法也算是个老故事了。硕士期间做的就是语音识别相关的课题，毕业后在一家语音技术公司干了两年，主要负责ASR和TTS的工程化落地。说实话，语音算法这个方向虽然不像CV那么"出圈"，但在实际产品中的需求一直很旺盛，尤其是智能音箱、车载语音、客服机器人这些场景。

依图科技在语音AI领域的布局虽然起步比科大讯飞晚，但发展速度很快，特别是在端到端语音合成和多语种ASR方面有不少技术积累。看到他们招语音算法工程师，我就投了。准备面试的时候，我重点复习了语音信号处理的基础理论、Conformer和Whisper等端到端ASR模型、VITS和NaturalSpeech等TTS模型，以及语音合成的最新进展。准备周期大概一个月。

投递后一周收到了HR电话，简单沟通后安排了技术一面。整个流程是三轮技术面+一轮HR面，下面详细复盘。

面试流程复盘

一面：语音信号处理+ASR基础（约60分钟）

一面面试官是个做ASR多年的老手，问题非常扎实，从基础理论到工程细节都覆盖了。

问题1：详细说一下语音信号预处理的全流程，从原始音频到特征提取。

我从预加重讲起，说了高频增强的原理和实现（一阶差分滤波器），然后讲了分帧（20-30ms帧长，10ms帧移）、加窗（Hamming窗的作用和频谱泄漏）、FFT、Mel滤波器组的设计原理、取对数、DCT得到MFCC。面试官追问了为什么用Mel刻度，我说因为人耳对频率的感知是对数的，Mel刻度模拟了这种非线性感知，低频分辨率高、高频分辨率低，更符合人耳特性。

问题2：MFCC和FBank特征各有什么优缺点？现在主流用哪个？

我说MFCC通过DCT去相关，适合GMM-HMM这种需要特征独立的模型，但DCT会损失一些信息。FBank保留了更多信息，适合深度学习模型，因为神经网络本身就能学习特征间的相关性。现在主流基本都用FBank，特别是端到端模型。面试官追问了FBank的维度选择，我说通常80维，这个维度在信息量和计算量之间取得了比较好的平衡。

问题3：CTC loss的原理是什么？它有什么局限性？

我说CTC通过引入blank标签解决了输入输出对齐问题，用前向-后向算法高效计算边缘概率。局限性主要有三个：一是条件独立性假设，认为输出标签之间相互独立，无法建模语言上下文；二是对齐方式是单调的，不能处理重排序；三是峰值激活问题，容易产生尖峰输出。面试官追问了怎么解决条件独立性的问题，我说可以用RNN-T或者Attention-based的seq2seq模型，它们能建模输出标签间的依赖关系。

问题4：Conformer和Transformer在ASR上的区别是什么？为什么Conformer效果更好？

我说Conformer的核心改进是在Transformer的自注意力模块中加入了卷积模块，形成了一种"注意力捕获全局依赖+卷积捕获局部依赖"的混合结构。具体来说，Conformer Block的顺序是：FFN → Multi-Head Self-Attention → Convolution → FFN，这种Macaron-style的结构比原始Transformer的串联方式更高效。实验表明，Conformer在相同参数量下比Transformer的WER低10-15%。

编程题：实现一个简单的MFCC特征提取函数，输入音频波形，输出MFCC特征。

这道题比较常规，我实现了预加重→分帧→加窗→FFT→Mel滤波器组→取对数→DCT的完整流程。面试官让我分析了计算复杂度，我说主要瓶颈在FFT，每帧O(N log N)，总复杂度O(F * N log N)，其中F是帧数，N是FFT点数。

二面：TTS+语音合成（约75分钟）

二面面试官是TTS方向的专家，问题非常前沿，涉及很多最新的研究成果。

问题1：TTS系统的基本架构是什么？从文本到语音的完整流程是怎样的？

我说传统TTS系统包括文本分析（分词、注音、韵律预测）、声学模型（文本→声学特征）、声码器（声学特征→波形）三个模块。端到端TTS把文本分析和声学模型合并，直接从字符或音素生成声学特征。面试官追问了文本分析中的G2P（字素到音素转换）怎么做，我说英文用规则+词典的方式，中文用多音字消歧模型，这个模块虽然不起眼但对最终效果影响很大。

问题2：VITS的架构是怎样的？它相比传统TTS有什么优势？

我说VITS是一个完全端到端的TTS系统，不需要单独的声码器。核心架构包括：文本编码器（提取语言特征）、标准化流（将复杂的声学特征分布映射到简单的高斯分布）、解码器（HiFi-GAN生成波形）。训练时用VAE的思想，推理时从先验分布采样并通过流模型和解码器生成语音。优势是：完全端到端训练避免了误差累积，音质接近真实语音，而且支持多说话人。面试官追问了标准化流的具体实现，我讲了Affine Coupling Layer的原理和可逆变换的性质。

问题3：语音合成中的韵律控制怎么做？如何实现细粒度的情感表达？

我说韵律控制主要有三种方案：一是显式控制，在输入中添加韵律标签（如重音、语调、停顿）；二是隐式控制，通过参考音频提取韵律嵌入，用GST（Global Style Token）或VAE来建模韵律空间；三是细粒度控制，在扩散模型中通过条件注入实现局部韵律调整。对于情感表达，我认为最有前景的方案是基于扩散模型的细粒度控制，因为它可以在不重新训练模型的情况下调整生成语音的情感强度和风格。面试官对扩散模型在TTS中的应用很感兴趣，追问了推理速度的问题，我说扩散模型的主要瓶颈是迭代采样次数，可以用DDIM或一致性模型来加速。

问题4：多语种TTS怎么做？有什么挑战？

我说多语种TTS的主要挑战是：不同语言的音素集不同、韵律模式差异大、训练数据不平衡。解决方案包括：统一音素集（IPA）、语言标识嵌入、多语种共享编码器+语种特定解码器、以及数据增强（跨语种TTS）。面试官追问了跨语种TTS的实现，我说可以用一个语种的文本输入和另一个语种的说话人嵌入来生成语音，核心是解耦语言内容和说话人特征。

编程题：实现一个简单的GST（Global Style Token）模块，输入参考音频的mel特征，输出风格嵌入。

我实现了GST的核心逻辑：参考编码器（CNN+GRU）提取参考嵌入，然后和一组可学习的style token做注意力计算，输出风格嵌入的加权和。面试官让我分析了style token数量对效果的影响，我说token太少表达能力不足，太多会导致冗余和训练不稳定，通常6-10个效果比较好。

三面：项目深挖+端到端模型（约90分钟）

三面是部门技术负责人面的，风格更加开放，侧重于项目经验和前沿技术理解。

问题1：你在之前的项目中做过最有挑战性的语音算法工作是什么？

我讲了一个车载ASR的项目：在车内噪声环境下做语音识别，信噪比可能低到0dB以下。我的方案是：第一，用多通道麦克风阵列做波束成形增强目标方向语音；第二，在ASR模型训练时加入噪声增强（Noise Augmentation），用各种车内噪声和语音混合生成训练数据；第三，用Conformer-Transducer架构替代原来的RNN-T，WER从12%降到了7%。最关键的优化是噪声增强策略——不只是简单加噪，而是模拟了车速变化带来的噪声强度变化，以及不同车型的噪声频谱差异。

问题2：Whisper模型的设计思路是什么？它为什么能做到多语种多任务？

我说Whisper的核心思路是"用数据规模弥补模型偏差"。它用了68万小时的多语种多任务数据训练，任务包括语音识别、语音翻译、语种识别和语音活动检测。模型架构是Encoder-Decoder Transformer，输入是mel特征，输出是文本token。它之所以能多语种多任务，是因为训练数据足够大且足够多样，模型在隐空间中学习到了跨语种和跨任务的共享表示。面试官追问了Whisper的局限性，我说主要是推理速度慢（非流式）、对中文等低资源语种效果不如专用模型、以及无法做说话人自适应。

问题3：端到端语音模型和传统pipeline各有什么优缺点？在什么场景下该用哪种？

我说端到端模型的优势是架构简洁、避免了误差累积、效果上限高，但需要大量训练数据、可解释性差、调试困难。传统pipeline的优势是模块化好、可解释性强、每个模块可以独立优化，但误差会逐级累积、系统复杂。在数据充足的场景下（如大厂的核心业务），端到端模型是更好的选择；在数据稀缺或需要快速迭代的场景下，传统pipeline更灵活。面试官追问了混合方案的可能性，我说可以在pipeline的基础上用端到端的思想优化关键模块，比如用神经网络的声学模型替代GMM-HMM，同时保留语言模型和解码搜索的模块化设计。

问题4：你对依图语音AI的技术方向有什么看法？你觉得语音算法的未来在哪里？

我说依图在语音AI上的差异化优势是算法能力强、工程化能力突出，特别是在端到端模型和大规模部署方面。我觉得语音算法的未来有三个方向：一是统一模型，一个模型同时做ASR、TTS、语音翻译等多个任务；二是极致个性化，用很少的数据就能克隆说话人的声音和风格；三是多模态融合，语音和视觉、文本联合建模，实现更自然的交互。面试官对多模态融合很感兴趣，说依图也在做相关探索。

真题汇总

1. 语音信号预处理全流程

2. MFCC与FBank特征对比

3. CTC loss原理及局限性

4. Conformer与Transformer在ASR上的区别

5. MFCC特征提取函数实现

6. TTS系统基本架构与流程

7. VITS架构与优势分析

8. 语音合成韵律控制方案

9. 多语种TTS的挑战与方案

10. GST模块实现

11. Whisper模型设计思路

12. 端到端语音模型vs传统pipeline

心得建议

依图的语音算法面试非常全面，从信号处理基础到最新的端到端模型都有涉及，而且面试官会根据你的回答不断深挖。几点建议：

1. 信号处理基础不能丢：虽然现在端到端模型很火，但一面还是会问很多信号处理的基础知识，MFCC的推导、滤波器组的设计这些必须能讲清楚。建议把《语音信号处理》的教材过一遍。

2. 跟踪最新论文：依图特别看重你对前沿技术的了解，VITS、NaturalSpeech、Whisper这些最新模型要能讲出架构和核心创新。建议关注Interspeech和ICASSP的最新论文。

3. 工程经验要能讲出细节：三面聊项目时，面试官会追问非常具体的细节，比如数据增强的具体策略、模型训练的超参数、线上部署的性能指标等等。平时做项目时要注意记录这些细节。

4. 准备一些开放性问题：三面会有一些"你怎么看"类的问题，需要有自己的思考。建议平时多关注语音AI的行业动态和技术趋势，形成自己的判断。

FAQ

Q：依图语音算法工程师的工作内容是什么？

A：主要负责ASR、TTS等语音算法的研发和优化，涉及模型设计、训练、部署全流程。需要同时具备算法研究和工程落地能力。

Q：面试对数学要求高吗？

A：中等，需要理解CTC、注意力机制、VAE等算法背后的数学原理，但不要求手推复杂公式。重点是理解而不是推导。

Q：没有语音算法经验可以投吗？

A：如果有NLP或CV的深度学习经验，转语音算法是可以的，但需要补信号处理的基础知识。建议先跑通一个ESPnet或Whisper的demo。

Q：依图语音团队的技术栈是什么？

A：训练框架主要用PyTorch，ASR用自研框架+ESPnet，TTS用VITS/NaturalSpeech系列，部署用C++和TensorRT，数据管线用Python。

Q：面试结果多久出来？

A：我是一面后5天约二面，二面后4天约三面，三面后一周出结果，整个流程大概两周半。

#依图科技#语音算法#ASR#TTS#语音合成#面试经历