AI로 이미지 만들기 - FLUX 사용하기

개요

약 반년간 Stable Diffusion_{이하 SD}를 작업해보면서 느낀점은 생각보다 더 자주 빈번하게 기괴한 해부학적 표현과 읽을 수 없는 이세계 문자들이 출력결과에 포함되어 퀄리티를 현저하게 떨어뜨린다는 점이다. 이러한 점은 여전히 생성형 AI가 랜덤박스이고 최종 결정권자가 검수하여 100%에 가깝도록 만들어야 한다는 점은 변치 않았음을 다시 확인하였다. 물론, LoRA나 각종 컨트롤을 전문가 수준으로 활용한다면 모르겠지만 고작 반 년동안 취미 수준만으로는 그런 고급설정과 퀄리티를 뽑아내기에 비용과 능력에 한계가 있었다.

사용중인 컴퓨터 자원의 한계로 소식은 알고 있었지만 외면하고 있었던 FLUX.1모델을 한 번 다루어야지 기다리고 있었는데, 마침 메모리 확장을 할 일이 있어서 이번 기회에 작업해보기로 하였고 결과는 아주 만족스러웠다.

집에서 사용중인 RTX 3070 8G VRAM 모델은 구매한지 벌써 5년 가까이 되어가는 오래된 라인업이라 기대는 하지 않았지만 SD계열의 인기있는 모델인 illustrous, Pony Diffusion 등을 사용하면 출력이 완료되기까지 한 장_1920x1080에 30초 ~ 1분 30초 내외로 그럭저럭 취미수준으로 활용하기에 부족함이 없었다.

FLUX.1은 Black Forest Labs에서 출시한 이미지 생성 모델로 높은 수준의 출력 품질을 보여준다. 단점이 있다면 다른 모델에 비해 높은 시스템 사양을 요구한다는 점이다. 애시당초 12GB VRAM을 지원하는 고사양 VGA가 없다면 진입할 수조차 없는 장벽이 있는 것이다. 시장에 유통되는 저가/보급형인 가정용 VGA로는 한계가 있을 수 밖에 없다.

그밖에도 필요한 모델 파일만해도 30GB를 우습게 넘겨버리기 때문에 거대한 용량을 준비시켜둘 넉넉한 메모리_RAM 공간도 필요하다. 불행중 다행인건 메모리 값은 요즘 아주 저렴해졌다. 다만, 이러한 점들이 모두 무색할 만큼 VGA 값이 폭등해버린것이 가장 문제이긴 하다. 중고가조차 말 그대로 앞뒤가 없는 지경_{중고차가 더 싸다}이라 첫 페이지만 보고 그냥 닫아버렸다.

FLUX.1 실행 준비

작업환경

i5-9600K
48GB RAM ( 8GB * 2 2666Mhz , 16GB * 2 2666Mhz / 2 channel)
3070 RTX 8G VRAM
Linux Debian 12.11
UI - ComfyUI

FLUX는 성능에 따라서 16fp, 8fp와 같이 다양한 모델을 제공하는데 컴퓨터 사양이 충분치 못하다면, GGUF 포맷으로 구성된 Q8 모델을 활용하여 FLUX.1을 구동할 수 있으며 어느정도 성능과 출력결과를 챙길 수 있다.

나처럼 컴퓨터 사양이 애매한 경우라면 머리 아프게 이놈저놈 재볼 수 조차 없으며 선택지 없이 GGUF 8Q 모델을 기준으로 작업하면 된다. 이 모델은 i7-10700F + 32GB RAM + 1660 SUPER 6G VRAM 에서도 작동하는 것을 확인했다.

한 장에 운 좋게 빠르면 1분 많게는 5분 이상 걸리기 때문에 만족스럽지 못하다고 느낄 수 있겠지만 그래도 구동되는게 어디인가?¹ 감사히 잘 쓰자.

FLUX.1은 여러가지 라인업과 작업환경별 모델을 제공하는데 대부분 상용 라이센스로 판매되는 제품이라 잘 확인해야한다. 이 포스트는 오픈소스로 공개된 FLUX.1-dev 모델을 사용하며 나온 출력물도 개인적으로 활용할 생각이기 때문에 자연스럽게 선택하게 되었다.

ComfyUI Custom Nodes

ComfyUI 실행전에 필요한 custom_nodes를 미리 설치해야 한다.

rgthree-comfy

git clone https://github.com/rgthree/rgthree-comfy
cd rgthree-comfy
pip install -r requirements.txt

ComfyUI-GGUF

git clone https://github.com/city96/ComfyUI-GGUF
cd ComfyUI-GGUF
pip install -r requirements.txt

필요한 파일 목록

각각의 모델 파일들을 다운로드 받고 ComfyUI/models 내부의 올바른 디렉토리에 위치시킨다.

/unet: Flux.1 Dev GGUF Q8
/vae: ae.safetensors
/clip: t5xxl_fp8_e4m3fn.safetensors
/clip: clip_l.safetensors
/upscale_models: 4x_foolhardy_Remacri
Simple GGUF Flux Workflow – With optional Upscaling
- 압축 해제 후 ComfyUI 내에서 워크플로우_json파일 불러오기

in-workflow

워크플로우 내부에보면 여러 설정들을 자신의 실행환경에 맞도록 다시 한 번 확인하는 작업을 진행해야한다.

Reselect 저작자: luasenvy
이 저작물은 "CC BY 4.0 국제규약" 라이선스로 배포되었습니다.

위 사진처럼 이미 선택되어있는 로더 파일의 경우라도 다시 한 번 클릭하여 선택해주는 것이 좋다. 경로나 설정 값이 실행환경과 다를 수 있기 때문이다. 가이드 문서에서 제공하는 워크플로우에는 LoRA가 로드되고 있는데 우선 Skip하여 구동되는지 먼저 테스트해보는 것도 나쁘지 않다.

출력결과 확인

flux.1-dev output 저작자: luasenvy
이 저작물은 "CC BY 4.0 국제규약" 라이선스로 배포되었습니다.

이 출력은 RTX 1660 SUPER 6G VRAM으로 얻은 결과이다. 중단없이 출력이 나오기는 하지만 오일러 샘플링 / 일반 스케줄링 / 25 스텝 설정으로 832x1216 해상도를 처리하는데 19분 소요되었다. 그냥 켜놓고 신경쓰지 않을 수 있는 환경이라면 괜찮을 것 같지만 빠른 출력을 얻기 위해서는 하드웨어 업그레이드가 필수적이다. RTX 3070 8GB VRAM을 사용하면 약 5분 정도 소요된다. CPU 성능은 출력결과에 영향을 주진 않았다.

업스케일은 5초내로 완료되어서 소요시간에 큰 영향을 주진 않았고, 최초 구동시 더 오래걸릴 수 있다는 이야기도 있는데 저사양에서는 논외로 보인다. 이 출력물을 얻기 위해 여러번 돌렸으나 최초 구동시 18분 16초, 이후 22분 09초, 무작업시 23분 등 다양한 양상을 보였다. 출력작업을 걸어두고 다른 작업을 하다보니 더 그런 것 같다.

flux.1-dev output 저작자: luasenvy
이 저작물은 "CC BY 4.0 국제규약" 라이선스로 배포되었습니다.

어쨌든 출력은 바로 사용해도 문제가 없을 만큼 상당히 고품질이다. 여전히 기괴한 해부학적 표현들이 나오기는 하지만 타 모델에 비해서 빈도가 현저히 낮고 영어의 경우 생각보다 더 정교한 표현을 볼 수 있었다. 비영어권은 여전히 알아먹을 수 없는 이상한 글자들이 표시되는데 그럼에도 상당히 높은 퀄리티를 보여준다.

참고로 위 출력물은 Randommaxx Robotify LoRA를 적용하여 만들었다.

연관 링크

성능이 영 마음에 안든다면 잔고와 그래픽 카드 가격을 보고 다시 생각해보자. ↩

FLUX 사용하기

ComfyUI에서 FLUX 사용하기 (feat. gguf)

AI 간단 요약

개요

FLUX.1 실행 준비

ComfyUI Custom Nodes

필요한 파일 목록

in-workflow

출력결과 확인

AI로 이미지 만들기 시리즈

FLUX 사용하기

ComfyUI에서 FLUX 사용하기 (feat. gguf)

AI 간단 요약

AI 간단 요약

개요

FLUX.1 실행 준비

ComfyUI Custom Nodes

필요한 파일 목록

in-workflow

출력결과 확인

Footnotes

AI로 이미지 만들기 시리즈