최근 몇 년간 텍스트를 그림으로 바꾸어 주는 인공지능 도구들이 많이 공개되고 있습니다. 이미 소개된 바 있는 Pixray와 GauGAN2부터, 트위터 게시글로 인기를 끌고 있는 DALL-E Mini까지 무료로 체험할 수 인공지능 도구들을 어렵지 않게 온라인 상에서 찾아볼 수 있습니다. 이번 글에서는 텍스트-이미지 변환 인공지능 도구 중 하나인 StarryAI에 대해 알아보겠습니다.
스타아리 에이아이(StarryAI)는 텍스트 입력과 간단한 설정만으로 훌륭한 미술 작품을 만들어주는 인공지능 도구입니다. 안드로이드와 iOS에서 모두 앱 설치가 가능하고, 웹으로도 이용이 가능합니다. StarryAI의 사용자는 자신의 창작물에 대한 완전한 소유권을 부여받습니다. 따라서, 이 창작물을 NFT 프로젝트에 활용할 수 있고, 소셜 미디어를 통해 자유롭게 공유할 수 있습니다.
StarryAI는 두 가지 AI 모델을 기반으로 이미지를 생성합니다. 알테어(Altair)와 오리온(Orion)이라는 이름의 두 인공지능 모델로 나누어져 있고, 이용자가 직접 선택할 수 있습니다.
Altair는 ‘VQGAN-CLIP’모델을 기반으로 작동합니다. VQGAN과 CLIP은 각각 별도의 네트워크이지만, VQGAN-CLIP모델에서 두 네트워크는 상호 작용하며 이미지를 생성합니다. VQGAN이 이미지를 생성하는 동안, CLIP은 생성된 이미지가 텍스트와 일치하는지 평가합니다. 이 과정이 반복되면서 더 정확한 이미지가 형성됩니다. 다음의 그림을 통해 더 쉽게 이해할 수 있습니다.

그림 원본 출처: LJ MIRANDA
Orion은 ‘CLIP-Guided Diffusion’ 기술을 활용하여 이미지를 생성합니다. Diffusion은 이미지에 존재하는 노이즈를 수학적으로 제거하는 방식으로 작동합니다. 한편, CLIP은 주로 이미지에 레이블을 지정하는 데 사용됩니다. Diffusion과 CLIP이 상호작용할 때, CLIP은 렌더링(생성된 결과물)과 입력된 텍스트를 비교하며 이에 대한 평가를 기반으로 Diffusion이 수행되는 과정을 안내합니다. 처음엔 흐릿한 이미지로 출발하지만, CLIP 가이드에 따라 Diffusion이 반복적으로 진행되면서 노이즈를 제거해가고, 최종적으로는 상세하고 일관된 이미지에 도달할 수 있습니다.
사용법은 다음과 같습니다. (웹 이용시)
[Step1] ‘Start Creating’을 눌러줍니다.
[Step2] 그림 생성을 수행할 AI 모델을 골라줍니다.
Altair: VQGAN-CLIP 모델을 사용합니다.
Orion: CLIP Guided Diffusion 기술을 사용합니다.
[Step3] ‘Enter Prompt’에 텍스트를 영어로 입력합니다.
(Tip1. Add Styles를 눌러 구체적인 그림 스타일을 지정할 수 있습니다.)
(Tip2. Initial Image에 사진을 업로드하여 인공지능이 이미지를 생성할 때 초기 이미지로 활용하게 할 수 있습니다.)
[Step4] Advanced Settings 옆의 버튼을 눌러, 고급 설정을 활성화시킵니다.
Canvas Size: 그림 규격(비율)을 설정합니다.
Model (Altair 선택한 경우)
Realistic: 실제 이미지로부터 영감을 얻습니다.
Artwork: 미술품 컬렉션으로부터 영감을 얻습니다.
Runtime: 인공지능 모델이 작업을 반복하는 횟수를 지정합니다. 더 높은 숫자를 고를수록 결과물의 퀄리티는 좋아질 수 있으나, 작업이 완료되는 시간이 길어지며, 더 많은 크레딧을 지불해야 합니다.
[Step5] Create를 누른 후 대기하면, 창작물이 완성됩니다.
StarryAI는 매일 5개의 크레딧을 무료로 제공합니다. 크레딧은 40개, 100개, ,200개, 500개, 1000개 단위로 추가 구매가 가능합니다. 트위터에 공유하기, 인스타그램에 공유하기 등의 미션 수행을 통해서도 크레딧을 확보할 수 있습니다. (Earn Credits 누르고, 하단의 내용 확인)
이상으로 텍스트-이미지 변환 도구 StarryAI의 사용법과 두 가지 인공지능 모델에 적용된 기술에 대해 간략하게 알아보았습니다. 기술에 대한 내용은 정말 많이 단순화한 것이기 때문에, 온전히 이해하시기에는 어려움이 있으실 것입니다. 그러나, 텍스트-이미지 변환과 관련하여 중요한 기술들이고, 이름에 익숙해지는 것만으로도 큰 의미가 있다고 생각합니다.
끝으로, StarryAI를 이용해서 나온 결과물을 공유해봅니다. 입력 텍스트는 ‘A giraffe drinking coffee’이고, Orion 모델을 사용했습니다.
똑같은 오리온 스타일에 “A giraffe drinking coffee” 똑같은 문구를 넣었지만 제 건 너무 단순하네요.
저랑 닮았어요. ㅠㅠ