翻译 | AI科技大本营(rgznai100)
2011 年 10 月,在 iPhone 4S 的发布会,Siri 作为首款语音助手,惊艳亮相,然而 6 年过后,Siri 却依旧不温不火,为此,苹果在最新的 iOS 11 中为 Siri 增加了更多的新功能,而且 Siri 合成的声音也更加自然流畅。
图1:使用半音素的单元选择语音合成图示。 合成语音“单位选择合成”及其使用半音素的语音转录过程如图上半部分所示,相应的合成波形及其频谱如图下半部分所示,由线分隔的语音段是数据库中的连续语音段,这些语段可能包含一个或多个半音素。
单位选择 TTS 的基本问题是找到满足输入文本和预测目标韵律的单元序列(例如半音素),前提是这些单元可以连接在一起,并且不存在可听见的刺音。
图2. 从文本到语音的合成过程
分段语音用于生成单元数据库,然后我们再使用重要信用进一步扩大单位数据库,如每个单元的语境和声学特征。我们将这些数据称为单位索引。利用构建的单元数据库和指导选择过程的预测韵律特征,系统会在语音单元空间中执行维特比搜索(Viterbi search),以找出合成单位的最佳路径(见图3)。
图3:利用维特比搜索找出格子中单元的最佳合成路径的图示。图3顶部是需要进行合成的目标半音素,下面每个框对应一个单独的单元。连接所选单元的线表示维特比搜索找到的最佳路径。
单元必须遵照目标韵律;
单元应该尽可能拼接起来,并且确保单元边界处无听得见的刺声。这两个标准分别被称为目标损失(target costs)和拼接损失(concatenation costs)。目标损失是预测目标声音特征与从每个单元中提取出来的声音特征(储存在单元索引中)之间的差异。而拼接损失则是结果单元(consequent units,见图4)之间的差异。总损失的计算公式如下所示:
图4. 基于目标损失和拼接损失的单元选择方法
其中wi为特征权重。
[1] A. J. Hunt, A. W. Black. Unit selection in a concatenative speech synthesis system using a large speech database, ICASSP, 1996.
[2] H. Zen, K. Tokuda, A. W. Black. Statistical parametric speech synthesis Speech Communication, Vol. 51, no. 11, pp. 1039-1064, 2009.
[3] S. King, Measuring a decade of progress in Text-to-Speech, Loquens, vol. 1, no. 1, 2006.
[4] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. W. Senior, K. Kavukcuoglu. Wavenet: A generative model for raw audio, arXiv preprint arXiv:1609.03499, 2016.
[5] Y. Qian, F. K. Soong, Z. J. Yan. A Unified Trajectory Tiling Approach to High Quality Speech Rendering, IEEE Transactions on Audio, Speech, and Language Processingv, Vol. 21, no. 2, pp. 280-290, Feb. 2013.
[6] X. Gonzalvo, S. Tazari, C. Chan, M. Becker, A. Gutkin, H. Silen, Recent Advances in Google Real-time HMM-driven Unit Selection Synthesizer, Interspeech, 2016.
[7] C. Bishop. Mixture density networks, Tech. Rep. NCRG/94/004, Neural Computing Research Group. Aston University, 1994.
[8] H. Zen, A. Senior. Deep mixture density networks for acoustic modeling in statistical parametric speech synthesis, ICASSP, 2014.
[9] T. Capes, P. Coles, A. Conkie, L. Golipour, A. Hadjitarkhani, Q. Hu, N. Huddleston, M. Hunt, J. Li, M. Neeracher, K. Prahallad, T. Raitio, R. Rasipuram, G. Townsend, B. Williamson, D. Winarsky, Z. Wu, H. Zhang. Siri On-Device Deep Learning-Guided Unit Selection Text-to-Speech System, Interspeech, 2017.
福利提醒:目前AI科技大本营在做读文章写评论送书活动,本次活动书籍是日本理化学研究所先进智能研究中心主任杉山将的《图解机器学习》,参与地址以及方式详见微信第二条文章。
AI科技大本营
招实习生啦