첫인상
아주 잘 작동하였고 결과물도 기대 이상이었다. 월 만원 정도의 구독료로 이 정도 퀄리티라고 한다면 아주 만족스럽고 합리적인 느낌이다. 막귀인 나의 생각일뿐이지만 음악 산업의 전문가인 경우 이를 통해 쉬운 전처리나 영감을 얻을 방식으로 활용할 수도 있을 거라 생각한다.
랜덤박스
AI를 통해 생성시킨 다양한 결과물을 접해볼 수 있는 것은 분명 큰 장점일 수 있다. 그러나 도박의 느낌을 지울 수가 없었다. 사람마다 개인편차가 있기 때문에 확정지을 수는 없지만 50개내에서 마음에 드는 것이 하나정도 있었다.
단순히 정말로 임의의 새로운 영감을 얻기 위한 작업이 아니고 어떠한 목표가 있는 경우라면 생각보다 고달픈 운빨 시험 작업이 될거라 생각한다. 당장 음악의 장르와 보컬의 목소리 톤, 음악 전반의 분위기나 사용할 악기 등등 상세히 나열하여도 생성형 AI의 태생때문인지 입력한 것과 다른 출력을 보일 때가 상당히 많다.
이러한 출력결과를 좀 더 정확하게 보정하기 위해서 사용자가 취할 수 있는 방법으로는 구조 메타태그
, 음악 스타일 태그
, 가사 직접입력
등이 있다.
구조 메타태그
아주 잘 작동하고 원하는 출력을 보이지만 말 그대로 구조와 관련된 것이므로 상세히 조정할 수는 없다. 단적인 예로 [Instrumental]
이라는 음악 중간에 쉬는 구간이 있다면 [Short Instrumental]
과 같이 입력할 경우 그냥 [Instrumental]
과 동일하게 작동한다.
오히려 가사의 길이와 생성중인 음악에 어울리도록 AI의 기분?에 따라서 결정된다.
음악 스타일 태그
여러가지 추가적인 설정을 할 수 있어서 좋았다. 그러나 내가 원하는 장르를 정확히 내가 모르는 것이 문제였다. 발라드인지 락발라드인지 메탈인지 헤비 메탈인지 데스 메탈인지 브루탈 메탈인지 오케스트라인지 아니면 오케스트라가 가미된 바로크 메탈과 얼터너티브 락이 합쳐진 새로운 장르인가?
프롬프트를 통하여 여러가지 주문을 입력할 수 있지만 Suno에서 제시하는 스타일과 장르를 차용하여 결국 clear voice, kpop, fast tempo, festive, happy
와 같은 형식으로 작성할 수 밖에 없었다. 분명 happy, festive, fast tempo 임에도 내가 듣기에는 노래가 우울한 것도 있었으며 축축 늘어지는 음악들도 5개 만들면 3개 이상은 그렇게 느껴지는 것 같았다. 결국 뽑기 운에 몸을 맡기고 create 버튼을 연타하게 된다.
이것이 만약 개선되지 않는다면 더 이상 사용할 용기가 나지 않는다. 기술적 한계로 개선이 안되는 케이스라면 그냥 이 정도까지가 Suno의 한계일 것이고 일부러 개선하지 않는 케이스라면 일반 랜덤박스 BM처럼 수익구조의 핵심이라 포기할 수 없을 것이다. 교묘히 변형될 가능성도 생각해볼 수 있다. 물론 후자라면 기술적 한계를 극복한 다른 업체가 치고 올라올테니 문제는 없...길 바란다. 너무 한국기준으로 생각했나 왜 같은 BM을 가지고 있을 것 같은 마구니같은 상상이 먼저 드는지 좀 슬프다.
나 같은 취미생활이 목적인 사용자의 경우 장기 이용은 조금 더 고민해보는 것이 좋다고 생각한다. 경험을 위해서라면 한 달 결제정도는 추천 하겠다.
가사 직접입력
음악의 길이나 분위기, 언어, 자연스러움을 위해서는 가사를 직접 입력하는 것이 필수적이다. 생성된 가사를 사용해도 상당히 고품질의 결과물을 볼 수 있지만 결국 이것도 랜덤박스이다.
가사를 직접 입력할 경우 저작권에 대해 고민을 해보아야하며 여기서 부터는 내가 Suno AI를 왜 쓰는지 이유를 찾아야 할 것이다. 흥미가 없다면 계속 진행할 수 없는 노가다의 영역으로 진입하게 된다.
뽑기운
작업 순서를 설명하자면 아래와 같다. 중괄호 부분은 반복 작업을 나타낸다.
{{가사 변경, 스타일 변경, 구조 변경} > 랜덤박스 > 출력확인} > 끝
커버 앨범도 AI를 통해 생성할 수 있다. 다른 사람이 생성한 앨범커버와 중복될 가능성이 있다고 하지만 이미지와 음악 모두 1000 크레딧 정도 사용하면서 중복된 결과물을 본 적은 없다. 이 이야기는 저작권에 비교적 자유롭다는 말이 될 수도 있지만 다르게 생각해보면 동일한 데이터를 입력해도 전혀 다른 결과물이 나온다는 이야기다. 다음과 같은 경우를 상상해보자.
- 뽑기 운이 아주 좋았다. 너무 내 마음에 쏙드는 음악이 나왔다.
- 두근거리는 마음을 안고 듣던 중... 한 글자 발음을 저는 것을 확인하였다.
- 나는 이 뭉게진 발음을 감내 할 수 있는가? 생각해본다.
- 미련없이 Trash로 넣어버린다.
같은 입력을 해도 다시는 그 음악을 만들 수 없다. Extend 기능을 사용해 보았으나 비슷한 분위기의 Part2라는 전혀 다른 노래를 만드는 것이지 출력결과를 조금 수정하는 것이 아니다. 내가 음악 편집 전문가라면 편집도구로 어떻게든 하겠다만, 그냥 create 버튼을 다시 연타하게 되었다.
하다보면 또 가사의 길이와 발음에 영향을 받는 것인지 특히 잘 뭉게지는 가사들도 존재한다. 발음이 정확하게 나오도록 가사를 수정하고 다시 생성하는 등 여러 우회 방법을 찾아야만 했다.
결국 컨텐츠
마음에 드는 곡을 하나 뽑아1 보는데에도 상당히 많은 시간과 노력이 들어갔다. 물론 재미위주로 굴려보는 거라면 전혀 부담없이 즐길 수 있다. 만약 Suno를 통해 생성한 컨텐츠로 의미있는 작업을 하려 한다면 분명 더 큰 노력과 운빨이 필요할 거라 생각한다. 또한 절대 일회성은 아닐 것이기 때문에 필요한 시간과 노력은 점점 더 늘어날 것이다.
라이센스 정책
- Pro 플랜 이상은 생성한 음악이 구매자 본인에게 소유권이 있으므로 상업적 목적으로 활용가능
- 구매 이전에 Free 플랜으로 생성한 음악에 대해서는 소급적용되지 않음. 소유권이 Suno에게 있으므로 상업적 목적으로 사용불가하며 정책에 따라 사용해야함
마치며...
만들어 봤으니 써먹어보기 위해 유튜브에 업로드를 해보았다. 유튜브에 업로드할 때에는 유튜브 운영정책에 따라 "변경된 컨텐츠"임을 알려야 한다.
업로드를 해보면서도 몇 가지 장벽들을 만났는데 일단 음악 컨텐츠 임에도 썸네일 이미지 편집, 영상편집과 같은 추가적인 작업이 필요하다. 정지된 화면에 오디오만 나오는 것 보다는 이퀼라이저 효과를 표시한 영상과 적당히 배치된 가사를 보여주는 것이 조회수에 긍정적인 효과가 있을 것이기 때문이다. 그러나 이미 랜덤박스로 심신이 지친 나는 이 고통을 이만 끝내기로 하고 그냥 업로드 하였다.
장난반으로 시작했기에 가벼운 마음으로 처음엔 즐겁게 잘 작업했다가 천성때문인지 아니면 아 조금만 더 하면 될거 같은 욕심 때문인지 점점 힘들어져 갔다. 랜덤박스를 게임이 아닌 여기서 만날 줄은 꿈에도 몰랐지만... 새로운 음악을 직접 만들어 감상할 수 있다는 것은 꽤나 큰 장점이라 생각한다. AI 상용 프로그램을 사용해볼 수 있는 좋은 기회였다. AI 서비스로 월 만원따리라도 받으려면 서비스 품질의 수준이 이 정도는 되어야 한다는 것을 알 수 있는 아주 좋은 경험이었다. 또, 내 소유권의 내가 뽑은 음악1을 가질 수 있어서 나름 신선하기도 했다.
느낀점
이 작업을 하면서 주변인의 추천으로 Stable Diffusion도 직접 설치하여 사용해봤는데 생성형 AI를 통하여 한 분야의 진입장벽이 말도 안되게 낮아진다는 점이 편리하면서도 대단하였다. 그러나, 해당 분야의 깊은 이해력 없이는 생성형 AI가 제시하는 출력결과에 대해 승인하겠는가?
라고 하는 중대한 마지막 결정을 내릴 수가 없다는 것을 느꼈다. 이것은 사용자에게 큰 리스크로 다가온다. 뽑기운이 기가막혀서 어쩌다 한 번 잘 됐다 하더라도 그 추진력을 바탕으로 전문가를 등용할 수 없다면 지속 가능성이 없다. 보조도구 그 이상의 기대를 하기엔 무리가 있다는 것이 내 생각이다.
GPT, Suno, Stable Diffusion 등 생성된 출력결과가 100% 정확도를 보장할 수 없음은 조금이라도 써본 사람이라면 모두 공감할 것이다. 이 글에서도 소개했듯이 발음이 뭉게지는 출력결과를 보이거나 이미지 생성 AI의 경우 손가락, 색, 얼굴이 뭉게지는 등 다양한 현상들이 있다. 그중에서도 가장 널리 알려진 것은 GPT의 경우인데 자신감있게 정확한 답변을 보여주지만 잘못된 답변을 본적이 참 많이 있다.2 이어서 "아닌데?" 라고 하면 1초도 생각안하고 "죄송합니다. 제가 잘 못 알려드렸습니다." 라고 태세전환을 해버린다. 컴퓨터는 99.999%의 정확도를 가진다 해도 필요가 없다. 같은 조건에서 다른 결과값이 단 하나라도 나올 수 있다면 나머지 모든 결과도 신뢰할 수 없어지기 때문이다.
이 글을 작성하는 나는 객관적으로 머리도 그렇게 좋은 편은 아니고 나이도 점점 먹어가기 때문에 변화와 신기술에 보수적인 시선을 가지고 있다. 그래서 이런 글 하나로 기술의 발전을 나쁜 시각으로만 보려는 것은 좋지않다. 다르게 생각해보면 이 블로그처럼 GPT로 생성된 이미지를 글의 삽화로 사용할 수 있다. 독자소비자가 암묵적으로 별로 중요한 정보는 아니니 봐줄게라고 넘어갈 수 있는 부분으로 실제로도 전체 컨텐츠에서 차지하는 비중은 높지 않다. 그러나 이런 삽화는 없으면 아쉽고 찾자니 시간이 좀 걸리는 귀찮은 작업이다. 저작권에 문제 없이 내 마음에 쏙드는 사진을 찾기란 생각보다 많은 시간이 걸리는데 이런 불필요한 시간을 대폭 줄여주고 좀 더 컨텐츠의 주요내용에 집중할 수 있다.3
자연스럽게 예술적표현, 연구방향제시, 초기진입교육 부분에서 많이 활용하는 형태로 바뀌어갔다. 출력결과가 완벽하지 않기 때문에 실패를 염두하거나 어느정도 불확실한 출력을 인정할 수 있는 부분이기 때문이다. 어차피 실제 결과물을 만드는데 있어서는 구글링하면서 정확하게 테스트하고 적용하는 기존 방식을 사용해야만 했다.
프로그래머들이 많이들 사용하는 Copilot
또한 비슷한 맥락이다. 생성형 AI가 50% - 80%를 제안하고 사용자가 승인하여 100%에 가깝게 만드는 작업이다. 생성된 예제 코드를 활용하여 사용자는 조금 더 빠르고 편리하게 작업할 수 있다. 여기에서 코드를 이미지로, 텍스트로, 결과값으로 바꿔 생각해본다면 모든 생성형 AI는 결국 최종결정권자인 사용자의 승인이 필요하고 나머지 완성도를 채우기 위해 편집이 필요하다. 때문에 같은 도구를 사용해도 사용자마다 결과물의 완성도는 상이할 수 밖에 없다.4
새로운 분야의 공부나 정확한 검색어를 몰라서 구구절절 풀어야할때도 아주 편리하였다. 어디서부터 시작해야될지 막막하거나 입문을 위한 커리큘럼을 짜달라고 한다든지 왕도는 아니어도 시작은 해볼 수 있는 납득할 만한 결과들을 볼 수 있었다.
생각보다 딸깍만으로 해결할 수 있는 문제는 흔치 않았다. 파인튜닝을 아무리 잘 하더라도 만들어낸 출력을 검증없이 믿고 쓸 이유도 없고 쓴다 하더라도 대중의 눈썰미는 상당히 높기 때문에 소비자들에게 먹힐 수준이 아니다. 극도로 정밀한 극한의 파인튜닝을 통해서 수준급의 출력을 만들 수 있다고 하더라도 검증과 최종결정은 책임자사용자의 손에 있다. 또한, 그 정도의 파인튜닝을 수행할 수 있는 사람이라면 부득불 전문가이어야만 하는 모순도 존재한다.
이러한 것들로 보아 생성형 AI가 제시하는 출력결과는 높은 수준으로 보이지만 아직 판단력은 초등학생 수준조차도 가야할 길이 멀어 보인다. 자기주체적인 메커니즘이라기보다 노이즈에서 가장 점수가 높은 출력들을 선택하고 짜맞추는 것이기 때문에 판단력이라고 칭하는 것 자체가 어불성설이라 생각하지만 말이다.
하루가 다르게 더 정밀하고 자연스러워지는 것이 보고 있노라면 무서울 정도이다만, 결국 결정을 내릴 수 있는 소수의 전문가들이 인력감축을 단행할 수 있을 만큼 생산성이 높아지는 것이라 생각한다. 그래서 요즘 말이 많은 AI가 일자리를 빼았는다는 것은 잘 만들어진 문장이라 생각한다.5
현시점에서는 수익성을 고려한 컨텐츠를 생성형 AI에게 전적으로 맡기기보다는 보조도구로써 잘 활용하여 자신의 생산성을 높이는 쪽으로 사용하는 것이 더 좋은 효과를 가질 것이라 생각한다.
Footnotes
-
신기루니 환상이니 하는 현상인데 내 주변인들은 이런 현상을 그냥 그럴듯한 개소리를 한다고 일컫는다. ↩
-
이미 눈치를 챈 사람도 있겠지만 이 블로그에 사용된 글의 커버 이미지 아무거나 하나 확대하여 자세히 봐보면. 그럴듯한 개소리가 포함된 말도 안되는 출력들이 숨어있다. ↩
-
출력결과를 보고 있자면
어디가 이상하지?, 대중에게 먹힐까?, 얼마나 먹힐까?, 여기서 어디를 바꾸면 더 좋을까?, 이게 맞나?, 더 나아갈 수 있나?, 수익성은 되나?, 사회적 문제점은 없나?, 얼마나 지속가능 하겠는가?
하는 물음들이 생겨난다. 고려할 필요가 없는 부분이라면 질문이 더 줄어들겠지만 의미있는 결과물을 위해서는 이 출력결과가 나타내고 있는 분야에 대해서 얼마나 알고 있으며, 얼마나 완성도 있게 편집할 수 있는가? 라는 본질적인 물음에 마주하게 된다. ↩ -
정말로 AI라 부를 수 있는 소프트웨어가 일자리를 빼았기 시작했다는 것은 곧 긍정적이든 부정적이든 인류가 무노동 시대로 돌입했다는 뜻과 같아야 한다고 생각하기 때문이다. ↩