개발_이야기/딥러닝
TTS
조규현15
2018. 4. 2. 00:14
반응형
역사속의 많은 ml_tts 프로젝트를 진행하고 있음. 현재는 `multi-speaker-tacotron-tensorflow`를 실험하고 있는데 몇몇 느낀점들을 기술하려고함.
1. 학습에 cpu, gpu의 속도 차이가 3배 이상 남. 예를 들어 cpu는 step당 5.6초의 시간이 소요되므로.. 학습에 인고의 시간이 필요함
`https://github.com/keicoon/multi-speaker-tacotron-tensorflow` repository에서 실험을 업데이트 하고 있음.
한국어 데이터셋(100+ hours)을 확보하고 있는데 어려움을 겪고 있음:cry:
MSTT를 통해 원작자의 sample과 비슷한 퀄리티의 한국어 TTS의 결과물을 확보함.
학습 과정에서 데이터 셋의 정확도가 높아야 결과물의 성능도 매우 좋아짐을 확인함.
그리고 모델에서 꽤나 하드하게 구성된 부분을 여럿 발견함 ( 한국어 텍스트가 가지는 특성 )
다양한 언어를 지원한다면 하드한 피팅은 어쩔 수 없는 요소임. MSTT는 그 외 현시대 ML로 생성되는 TTS 결과물에서는 나이스함.
반응형