Development of a voice audio replacement program for video content using deep learning speech synthesize technology
This Project is Industry-academic cooperation(MayFarm). 중요한 소스코드는 삭제했습니다.
교육 동영상 시장이 확대되면서 성우를 기용해 제작된 영상들 또한 늘고 있는 실정이다. 이렇게 제작된 영상의 경우 추후 수정 작업이 생길 때 해당 영상을 녹음한 성우를 재섭외하여 다시 녹음해야 한다는 불 편함이 생기는데 이는 교육 동영상 제작 업체에게 시간적, 금전적으로 부담이 될 수 있다. 이러한 문제를 해결하기 위해 딥러닝 음성 합성 모델인 Tacotron2를 통해 한국어 기반 음성 합성을 할 수 있다. 이러한 음성 합성 기술을 사용하여 사용자는 동영상의 특정 성우의 목소리를 저장하고 학습용 데이터로 가공할 수 있다. 이렇게 학습한 음성 합성 모델을 사용해서 성우의 목소리와 유사한 음성을 합성할 수 있다. 우리 는 만들어진 음성을 가지고 영상의 부분 음성 교체를 진행하며 수정한 영상을 설문자에게 의뢰한 결과 5 점 만점에서 4.77점을 기록했다. 이를 활용하여 우리는 학습용 교육 동영상을 제작하는 과정에서 발생하 는 비용의 비효율성을 개선할 수 있을 것이라고 기대한다.
Speech Synthesize Model
Libraries
Datasets
- Linux, MacOS(Big Sur,
Intel) - Pycharm
- Python
- Django
- MariaDB
conda activate Your Environment
cd Your Path
python manage.py YourIP:PORT
tensorflow-gpu == 1.8.0cudatoolkit == 9.0cudnn == 7.6.0ffmpeg == 4.0pydub == 0.25.1moviepy == 1.0.3jamo == 0.4.1