게시자: Jonathan Shen, Ruoming Pang(소프트웨어 엔지니어, Google 두뇌 및 기계 인지 팀을 대표하여 작성)
텍스트로부터 매우 자연스러운 음성을 생성하는 과제(텍스트-음성, TTS)는 수십 년 묵은 연구 목표였습니다. 지난 몇 년 동안 TTS 연구에서 많은 진전이 있었으며 완전한 TTS 시스템의 많은 개별적인 부분들이 크게 개선되었습니다.
Tacotron 및
WaveNet 같은 이전 작업에서 얻은 아이디어를 통합하여 더 많은 개선 사항을 추가함으로써 새로운 시스템인 Tacotron 2가 탄생했습니다. 우리의 접근 방식에서는 복잡한 언어 및 음향 기능을 입력 수단으로 사용하지 않습니다. 대신, 음성 예시와 해당 텍스트 대화 내용만으로 교육받은 신경망을 사용하여 텍스트에서 인간과 유사한 음성을 생성합니다.
우리가 선보이는 새로운 시스템에 대한 자세한 설명은 '
Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions'라는 제목의 논문에서 찾아볼 수 있습니다. 간단히 말하자면 다음과 같이 작동합니다. TTS에 최적화된 시퀀스-시퀀스 모델을 사용하여 오디오를 인코딩하는 기능 시퀀스에 문자 시퀀스를 매핑합니다. 이 기능은 12.5밀리초마다 계산된 프레임을 포함하는 80차원 오디오 스펙트로그램으로, 단어의 발음뿐 아니라 음량, 속도 및 억양을 비롯한 사람의 음성이 지닌 다양하고 미묘한 부분을 포착합니다. 마지막으로 이러한 기능은
WaveNet과 유사한 아키텍처를 사용하여 24kHz 파형으로 변환됩니다.
Tacotron 2의 모델 아키텍처에 대해 자세히 알아보기. 이미지의 아래쪽 절반은 문자 시퀀스를 스펙트로그램에 매핑하는 시퀀스-시퀀스 모델을 나타냅니다. 기술적인 세부 사항은 논문을 참조하세요.
최첨단 TTS 시스템의 결과를 보여주는
Tacotron 2 오디오 샘플 몇 가지를 들을 수 있습니다. 인간 청취자에게 생성된 음성이 얼마나 자연스러운지 점수를 매겨달라고 요청한 평가에서 성우와 같은 전문가들이 녹음한 음성에 대해 매긴 점수와 비슷한 점수를 얻었습니다.
샘플이 훌륭한 것 같지만 아직 해결해야 할 어려운 문제가 몇 가지 남아 있습니다. 예를 들어, 우리의 시스템은 복잡한 단어(예:
decorum,
merlot)를 발음하는 데 어려움이 있으며 극단적인 경우에는 이상한 소리를 랜덤하게 생성할 수도 있습니다. 또한, 아직은 실시간으로 오디오를 생성할 수 없습니다. 게다가 아직은 생성된 음성을 제어할 수도 없습니다(예: 행복하거나 슬픈 음색을 내도록 지시). 이들 각각은 그 자체로 흥미로운 연구 과제입니다.
감사의 말
Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, Yonghui Wu, Sound Understanding 팀, TTS Research 팀 및 TensorFlow 팀에 감사의 마음을 전합니다.