개발_이야기/딥러닝

TTS

조규현15 2018. 4. 2. 00:14
반응형

역사속의 많은 ml_tts 프로젝트를 진행하고 있음. 현재는 `multi-speaker-tacotron-tensorflow`를 실험하고 있는데 몇몇 느낀점들을 기술하려고함.


1. 학습에 cpu, gpu의 속도 차이가 3배 이상 남. 예를 들어 cpu는 step당 5.6초의 시간이 소요되므로.. 학습에 인고의 시간이 필요함

`https://github.com/keicoon/multi-speaker-tacotron-tensorflow` repository에서 실험을 업데이트 하고 있음.



한국어 데이터셋(100+ hours)을 확보하고 있는데 어려움을 겪고 있음:cry:



MSTT를 통해 원작자의 sample과 비슷한 퀄리티의 한국어 TTS의 결과물을 확보함.

학습 과정에서 데이터 셋의 정확도가 높아야 결과물의 성능도 매우 좋아짐을 확인함.

그리고 모델에서 꽤나 하드하게 구성된 부분을 여럿 발견함 ( 한국어 텍스트가 가지는 특성 )

다양한 언어를 지원한다면 하드한 피팅은 어쩔 수 없는 요소임. MSTT는 그 외 현시대 ML로 생성되는 TTS 결과물에서는 나이스함.

반응형