개발_이야기/딥러닝 6

TTS

역사속의 많은 ml_tts 프로젝트를 진행하고 있음. 현재는 `multi-speaker-tacotron-tensorflow`를 실험하고 있는데 몇몇 느낀점들을 기술하려고함. 1. 학습에 cpu, gpu의 속도 차이가 3배 이상 남. 예를 들어 cpu는 step당 5.6초의 시간이 소요되므로.. 학습에 인고의 시간이 필요함`https://github.com/keicoon/multi-speaker-tacotron-tensorflow` repository에서 실험을 업데이트 하고 있음. 한국어 데이터셋(100+ hours)을 확보하고 있는데 어려움을 겪고 있음:cry: MSTT를 통해 원작자의 sample과 비슷한 퀄리티의 한국어 TTS의 결과물을 확보함.학습 과정에서 데이터 셋의 정확도가 높아야 결과물의 성..

texture_compression

1. original 텍스쳐와 decompression된 텍스쳐의 차이는 눈으로 봤을 때 크게 없음.2. PSNR과 SSIM으로 확인한 값은 꽤나 텍스쳐별로 변폭이 큼.3. baseline model외에 다른 idea를 접목한 기술을 실험하고 있어 기대가 큼. 그 외 `code`라는 중간 파일의 크기가 이 실험에서 중요한 압축률을 의미하는데 이 파일이 autoencoder의 중간 layer의 tensor 크기만으로는 너무 크므로 다시한번 bit단의 encoding이 필요함. 이 사실을 나중에 이해함.

PFNN(Phase-Functioned Neural Networks for Character Control)

PFNN(Phase-Functioned Neural Networks for Character Control) homepage : http://theorangeduck.com/page/phase-functioned-neural-networks-character-controlpaper : http://theorangeduck.com/media/uploads/other_stuff/phasefunction.pdfvideo : https://youtu.be/Ul0Gilv5wvYcode : https://github.com/sreyafrancis/PFNN PFNN은 real-time animtion finder이다. 수 많은 motion data 중에서 현재 가장 적합한 motion을 찾아주는 것이 핵심이다. so..