구글, 동영상 음성에서 하나의 음성만 분리하는 기술 발표

구글이 여러 소음 속에서 특정 사람의 음성만을 분리하는 기술을 개발했다고 발표했다.

이 기술의 베이스는 인공지능 머신러닝으로 구글은 유튜브에 업로드되어 있는 10만개의 고화질 동영상 중 BGM이나 소음 등이 없고 화자의 얼굴이 비치며 이야기하고 있는 장면을 2000시간 분량 추출했다. 이어 이들 동영상의 음성을 의도적으로 구성하여 소음 속에서 누군가 말하는 상황을 가상적으로 만들어 냈다.

이 데이터를 사용하여 뉴럴 네트워크 기반 모델을 훈련시켜 머신에 다시 화자별 음성을 분리시키도록 함으로써 소음 속의 동영상에서 특정인의 목소리만 추출할 수 있도록 했다. 이 기술은 영상 정보도 중요하여 머신 영상 속에서 화자의 입이 움직이고 있음을 인식함으로써 음성 추출의 확률을 높이고 있다.

이 기술을 이용하여 화자의 얼굴이 비치고 있는 동영상에서 임의의 인물을 선택함으로써 다른 사람의 음성을 줄이면서 그 인물만의 음성을 정확하게 들을 수 있다.

단축키

Articles