DeepMind의 새로운 인공지능은 동영상을 위한 사운드트랙과 대화를 생성합니다

구글의 AI 연구소인 DeepMind는 동영상을 위한 사운드트랙을 생성하는 AI 기술을 개발 중이라고 합니다.

공식 블로그에 게시된 글에서 DeepMind는 이 기술인 V2A(비디오-오디오)를 AI로 생성된 미디어 퍼즐의 필수 요소로 보고 있습니다. DeepMind를 비롯한 여러 기관에서 개발된 동영상 생성 AI 모델들이 많이 있지만, 이러한 모델들은 생성한 동영상과 동기화된 사운드 효과를 만들어낼 수 없습니다.

DeepMind은 '동영상 생성 모델은 놀라운 속도로 발전하고 있지만, 현재 많은 시스템은 무음 출력만 생성할 수 있다'고 씁니다. 'V2A 기술은 생성된 영화를 생동감 있게 만드는데 유망한 접근 방법이 될 수 있을 것입니다.'

DeepMind의 V2A 기술은 사운드트랙의 설명(예: '물 속에서 펄럭이는 해파리, 해양 생물, 바다')과 동영상을 함께 사용하여 비디오에 어울리는 음악, 사운드 효과, 대화까지 생성하며, DeepMind의 딥페이크 대응 SynthID 기술로 워터마킹을 수행합니다. DeepMind는 V2A를 구동하는 AI 모델인 확산 모델은 소리와 대화 대본뿐만 아니라 비디오 클립에 대한 조합을 훈련시켰다고 합니다.

'비디오, 오디오 및 추가 주석을 훈련함으로써 기술은 특정 오디오 이벤트를 여러 시각적 장면과 관련시키는 것을 배우고, 주어진 주석 또는 대본에서 제공된 정보에 응답합니다.'라고 DeepMind는 설명합니다.

훈련 데이터 중 저작권이 있는 부분이 있는지, 데이터의 창작자들이 DeepMind의 작업에 대해 통보 받았는지 등에 대한 정보는 아직 공개되지 않았습니다. 궁금한 점이 있을 경우 DeepMind에 문의하여 이 게시물을 업데이트할 예정입니다.

AI 기반 사운드 생성 도구는 새로운 것이 아닙니다. 스타트업 Stability AI는 지난 주에 발표했고, ElevenLabs는 5월에 하나를 출시했습니다. 또한 동영상 사운드 효과를 만드는 모델도 존재합니다. 마이크로소프트 프로젝트는 정지된 이미지로부터 말하는 동영상과 노래 동영상을 생성할 수 있고, Pika 및 GenreX와 같은 플랫폼은 비디오를 입력으로 사용하고 해당 장면에 적절한 음악이나 효과를 가장 적절하게 추측하기 위한 모델을 훈련시켰습니다.

하지만 DeepMind는 V2A 기술이 비디오의 원시 픽셀을 이해하고 생성된 사운드를 자동으로 비디오와 동기화시킬 수 있는 고유한 점을 주장합니다.

V2A는 완벽하지 않으며, DeepMind도 이를 인정하고 있습니다. 기본 모델이 아티팩트나 왜곡이 많은 비디오를 훈련시키지 않았기 때문에, 이러한 비디오에 대한 고품질 사운드를 생성하지 못합니다. 일반적으로 생성된 사운드는 그다지 설득력이 없습니다. 동료 Natasha Lomas는 이를 '집어넣은 것처럼 흔한 소리들의 무리'라고 설명하였고, 나 역시 그견동롷움동재동.

이러한 이유로 인해 그리고 남용을 방지하기 위해 DeepMind는 가능한 빠른 시일 내에도 테크를 공개하지 않을 것입니다.

'V2A 기술이 창의적인 커뮤니티에 긍정적인 영향을 미칠 수 있도록 하기 위해, 우리는 주요 창작자들 및 영화 제작자들로부터 다양한 관점과 통찰을 수집하고 이 소중한 피드백을 연구 및 개발에 반영하고 있습니다.' DeepMind는 '넒은 대중에게 열람 가능하게 만드는 것을 고려하기 전에 V2A 기술을 엄격한 안전 평가와 테스트를 거쳐야 합니다.'라고 밝힙니다.

DeepMind는 V2A 기술을 아카이브 지킴이나 역사적 자료를 다루는 사람들에게 특히 유용한 도구로 소개하고 있습니다. 그러나 이와 같은 생성적 AI는 영화 및 TV 산업을 흔들어놓을 위협을 안고 있습니다. 생성적 미디어 도구가 일자리를 없애지 않도록 또는 전문직을 선을 내지 않도록 강력한 노동 보호가 필요할 것입니다.