텍스트를 입력하면 음악을 생성하는 구글 MusicLM

구글이 최근 공개한 새로운 AI도구인 MusicLM은 텍스트를 입력하면 최대 5분 분량의 음악을 작곡해줍니다. 이 모델은 또한 예를 들어 휘파람이나 허밍의 형태로 오디오 입력을 허용하여 노래의 멜로디를 알리는 데 도움을 주며 “텍스트 프롬프트에 설명된 스타일로 렌더링”됩니다.

AI를 사용하여 음악을 생성하는 것은 새로운 것이 아니지만, 간단한 텍스트 프롬프트를 기반으로 실제로 무난한 음악을 생성할 수 있는 도구는 지금까지 없었습니다. 저작권 문제 때문에 소스코드나 실제 체험해볼 수 있는 사이트를 제공하지는 않지만, MusicLM으로 생성한 음악을 프롬프트와 함께 보고 들을 수 있는 깃허브 페이지가 있습니다.

아래와 같은 프롬프트를 입력하면, 글에 맞는 음악을 작곡해주는 것입니다. 내가 음악 전문가가 아니라서 깊이 있는 평가는 힘들지만 프롬프트에 표현한 것과 음악의 분위기가 비슷하다는 느낌은 받았습니다.

“아케이드 게임의 메인 사운드트랙. 눈에 띄는 일렉트릭 기타 리프와 함께 빠르게 진행되고 낙관적입니다. 음악은 반복적이고 기억하기 쉽지만 심벌즈 충돌이나 드럼 롤과 같은 예상치 못한 소리가 있습니다.”

“레게톤과 일렉트로닉 댄스 음악이 어우러져 공간감 있고 비현실적인 사운드를 제공합니다. 우주에서 길을 잃은 경험을 유도하고 춤을 출 수 있으면서도 경이로움과 경외감을 불러일으키도록 음악을 디자인했습니다.”

“떠오르는 신디사이저는 리버브가 많은 아르페지오를 연주합니다. 패드, 서브베이스 라인 및 부드러운 드럼으로 뒷받침됩니다. 이 곡은 신스 사운드로 가득 차 있어 차분하고 모험적인 분위기를 연출합니다. 빌드 업을 위해 두 곡 동안 축제에서 연주될 수 있습니다.”

텍스트를 기반으로 음악을 생성하는 것은 문장이나 이미지 혹은 영상을 만드는 것 보다 어려운 과제입니다.

첫 번째로 학습시킬 데이터가 부족한 문제가 있습니다. 이미지의 경우는 인터넷에서 텍스트 설명(캡션)이 있는 데이터를 충분히 모을 수 있습니다. 그런데 음악은 텍스트로 그 곡을 해설한 자료가 극히 부족합니다.

두 번째는 음악은 ‘시간’에 따라 변화가 있습니다. 고양이 사진은 시간이 지나고 고양이고 세익스피어 소넷은 오랜 시간이 지나도 그대로인데, 음악 트랙은 일정 기간 동안 ‘시간적 차원을 따라’ 구성됩니다.

MusicLM은 이러한 문제를 극복하기 위한 모델입니다. 이것은 기계 학습을 사용하여 구조, 멜로디 및 개별 사운드와 같은 노래의 다양한 수준에 대한 시퀀스를 생성하는 “음악 생성을 위한 계층적 시퀀스-시퀀스 모델”입니다.

이를 수행하는 방법을 배우기 위해 모델은 음악가가 준비한 5,500개 이상의 음악 캡션 데이터 세트와 함께 레이블이 지정되지 않은 음악의 대규모 데이터 세트에서 학습됩니다. 이 데이터 세트는 향후 연구를 지원하기 위해 공개되었습니다.

인공지능은 글로써 글을 만들고, 글로써 이미지와 영상을 만드는 수준을 넘어서서, 글로써 음악을 작곡하는 단계까지 이르렀습니다. 이제 음악과 미술도 잘하기 위해서는 글로써 표현할 수 있는 능력을 길러야 한다는 의미입니다. 물론 소수의 예술가들은 여전히 언어의 매개 없이 창작활동을 지속하겠지만, 대부분의 사람은 ‘언어 표현’을 통해 창작활동을 하게 되었습니다.

그것이 인간의 지적, 창의적 활동에 가지는 의미와 가져올 변화는 상상을 초월한 것이 될 수도 있습니다. 수년 전부터 제가 ‘보편적 언어’의 시대가 도래하고 있다는 것과 언어의 중요성을 강조하고 있는 이유입니다.

‘언어’ 교육에 때를 놓치지 말고, 특히 국어와 외국어를 구분하지 말고 다양하고 풍부한 언어 경험에 노출시키는 것이 중요합니다. 먹고 살려면 공부 많이 해야 합니다.

인쇄하기