반응형
역사속의 많은 ml_tts 프로젝트를 진행하고 있음. 현재는 `multi-speaker-tacotron-tensorflow`를 실험하고 있는데 몇몇 느낀점들을 기술하려고함.
1. 학습에 cpu, gpu의 속도 차이가 3배 이상 남. 예를 들어 cpu는 step당 5.6초의 시간이 소요되므로.. 학습에 인고의 시간이 필요함
`https://github.com/keicoon/multi-speaker-tacotron-tensorflow` repository에서 실험을 업데이트 하고 있음.
한국어 데이터셋(100+ hours)을 확보하고 있는데 어려움을 겪고 있음:cry:
MSTT를 통해 원작자의 sample과 비슷한 퀄리티의 한국어 TTS의 결과물을 확보함.
학습 과정에서 데이터 셋의 정확도가 높아야 결과물의 성능도 매우 좋아짐을 확인함.
그리고 모델에서 꽤나 하드하게 구성된 부분을 여럿 발견함 ( 한국어 텍스트가 가지는 특성 )
다양한 언어를 지원한다면 하드한 피팅은 어쩔 수 없는 요소임. MSTT는 그 외 현시대 ML로 생성되는 TTS 결과물에서는 나이스함.
반응형
'개발_이야기 > 딥러닝' 카테고리의 다른 글
texture_compression (0) | 2018.04.02 |
---|---|
PFNN(Phase-Functioned Neural Networks for Character Control) (0) | 2018.04.02 |
anim_motion_synthesis (0) | 2018.04.02 |
최신 논문으로 시작하는 딥러닝 (0) | 2018.04.02 |
How we teach computers to understand pictures (0) | 2017.09.19 |