AI가 슬슬 화두에 오르던 때 사람들이 생각하기를, 단순 노동이나 반복 작업과 같은 영역에서 잠식당할 순 있어도 인간이 가진 창작의 영역은 오랜 시간이 지나더라도 AI가 넘보기는 힘들 것이라 예상했습니다. 집필이나 미술, 음악과 같이 창작이 필요한 영역에서는 AI가 흉내조차 내기 쉽지 않겠다고 생각한 것이죠. 그런데 2022년 8월, 오픈소스 라이선스로 배포된 인공지능 모델 스테이블 디퓨전Stable Diffusion은 text-to-image 기반의 그림 생성 AI이며, 간단한 단어 입력만으로 생성되는 이미지는 놀라움을 자아내기 충분했습니다. 이를 기반으로 한 NovelAI 이미지 제너레이터는 유료 구독자만 사용할 수 있음에도 폭발적인 관심과 인기를 모았습니다. 사람들의 예상과는 달리, 창작의 영역도 AI로 충분히 가능한 시대가 되었습니다.
이제는 이미지 생성 AI를 흔하게 접할 수 있게 되었고, 일부 시장에서는 이미 이미지 생성 AI를 활용하고 있습니다. 물론 소비자가 원하지 않는 상업적 이용이나 일러스트 리터칭을 통한 작업물 위장, 무단 학습 논란 등 아직 논쟁 거리가 많긴 합니다. 다만 디즈니 오리지널 드라마인 '시크릿 인베이전'에서도 오프닝 크레딧을 AI로 제작할 만큼(물론 초기에 비판은 받았지만) 이미지 생성 AI를 무시 못할 상황이 된 것도 사실입니다. 따라서 개인적인 흥미나 활용을 위해 이미지 생성 AI를 접해보는 것도 나쁘지 않은 선택이죠. 이번에는 웹 브라우저 기반의 유저 인터페이스(web UI)로 스테이블 디퓨전을 쉽게 사용해 볼 수 있는 스테이블 디퓨전 web UI의 설치 및 사용 방법에 대해 알아보려 합니다.
스테이블 디퓨전 web UI 소개 INTRODUCE

스테이블 디퓨전은 독일 뮌헨 대학교에서 Stability AI(https://stability.ai/)와 Runway ML 등의 지원을 받아 개발된 딥러닝 인공지능 모델입니다. 높은 개발 비용이 들었음에도 오픈 소스로 공개되어 누구나 사용할 수 있게 되었지요. 우선 간단하게 스테이블 디퓨전의 근본이 되는 확산 모델(diffusion model) 원리를 먼저 살펴보도록 합시다.
풍경 이미지를 이용해서 확산 모델을 학습시킨다고 생각해봅시다. 풍경 이미지에 점차 노이즈를 추가하다보면 결국 그것이 풍경인지 뭔지 알 수 없는 노이즈 이미지로 바뀌는데, 이를 순방향 확산(Foward Diffusion) 이라고 합니다. AI의 학습 과정은 이러한 노이즈 이미지를 활용하여 아래와 같이 이루어집니다.
1. 학습 이미지 선택
2. 무작위 노이즈 이미지 생성
3. 학습 이미지에 무작위 노이즈 이미지를 일정 단계씩 추가하여, 학습 이미지를 점차 손상시킴
4. U-Net 모델이라는 신경망 모델을 사용하여 노이즈가 추가된 단계를 학습(※ 스테이블 디퓨전에서는 noise predictor라고 함)
5. 여러 단계로 구분된 노이즈 이미지를 모두 학습한 후, 정답 이미지를 보여줌으로써 학습 완료

▲ 이미지 출처: https://en.wikipedia.org/wiki/Diffusion_model
그렇다면, 이 순방향 확산을 거꾸로 돌릴 경우 노이즈 이미지에서 풍경 이미지로 복구할 수 있을 것입니다. 우선 완전히 무작위 상태인 노이즈 이미지를 생성하고 noise predictor에게 노이즈가 얼마나 포함되었는지 요청합니다. noise predictor는 노이즈 단계를 예측한 다음, 예측한 노이즈만큼 원본 노이즈에서 제거합니다. 이를 반복하면 최종적으로 학습된 이미지 중 하나를 얻게 됩니다. 이를 역방향 확산(Reverse diffusion)이라고 합니다.
여기까지가 기본 개념이고, 이 상태로는 매우 느리게 작동하거나 아예 작동하지 않을 수 있습니다. 스테이블 디퓨전이 사용하는 스테이블 디퓨전 모델(Stable Diffusion model)은 리소스 사용량을 줄이고 연산 속도를 높이기 위해 잠재 확산 모델(latent diffusion model), 가변 자동 인코더(VAE, Variational AutoEncoder) 등을 적용하였고 사용자가 이미지에 대한 조건 부여를 할 수 있는 텍스트 조건 부여(text-to-image)도 적용하였습니다. 이에 대해 자세하게 서술하면 내용이 너무 길어지는 관계로 다음 기회를 기약하도록 하겠습니다. 최종적으로 스테이블 디퓨전의 text-to-image 프로세스는 다음과 같이 정리할 수 있습니다.
1. 기본 이미지 크기인 512 x 512(※ 예시) 공간에 잠재 노이즈(latent noise)를 생성
2. 이 상태에서는 단순 노이즈 이미지일 뿐이며 후술할 seed를 사용해 잠재 노이즈를 어느 정도 제어할 수도 있음
3. noise predictor가 잠재 노이즈와 텍스트 조건을 받아 노이즈 예측
4. 노이즈 이미지에서 잠재 노이즈를 반복 제거, 최종적으로 이미지 생성 완료
어때요? 참 쉽죠?(...) 좀 더 제대로 파고 들기 시작하면 비평형 열역학, 가우스 분포, 볼츠만 분포 같은 단어가 나오며 수많은 수학 공식이 눈 앞을 가리기 때문에 스테이블 디퓨전에 대한 설명은 여기서 마치도록 하겠습니다.
스테이블 디퓨전 web UI 설치 INSTALLATION
본 기사에서 다루는 스테이블 디퓨전 web UI는 AUTOMATIC1111(https://github.com/AUTOMATIC1111)이라는 유저가 배포하고 있는 웹 기반 UI 툴입니다. 코어는 당연히 뮌헨 대학교에서 개발한 스테이블 디퓨전이지만, 일반 사용자들이 좀 더 쉽게 사용할 수 있도록 web UI를 입힌 것이지요. 물론 다른 유저들이 개발한 web UI도 존재하기 때문에, 이를 구분하기 위해서 스테이블 디퓨전 AUTOMATIC1111 web UI 혹은 스테이블 디퓨전 Ishqqytiger web UI와 같은 방식으로 유저 명을 앞에 붙이기도 합니다. 하지만 항상 이 방식으로 표기하기에는 이름이 너무 길기 때문에 아래부터는 '스테이블 디퓨전 web UI'로 표기하였습니다.
앞서 언급한 바와 같이, 스테이블 디퓨전 web UI는 웹 브라우저 기반이기 때문에 일련의 설치 과정만 거치면 Edge나 Chrome 등 일반적인 웹 브라우저에서 간단하게 사용할 수 있습니다. 통상적인 프로그램을 설치하는 것보다는 복잡하여 상대적으로 접근성이 떨어지긴 하지만, 설치법보다 훨씬 방대한 스테이블 디퓨전 본체의 사용법에 비하면 쉬운 편입니다. 일단 차근차근 설치를 진행해봅시다.
※ NVIDIA 그래픽카드용 설치 방법입니다. AMD 그래픽카드도 아래 방식으로 설치 후 사용은 가능하나 AMD 그래픽카드에 맞는 최적화가 적용되지 않는 점 참고하시기 바랍니다.

우선 https://git-scm.com/download/win 을 방문하여 Git for Windows를 다운로드하여 설치합니다. 위 스크린샷에서 보이는 파란 글씨 중 64-bit Git for Windows Setup를 클릭하면 됩니다.

Git for Windows의 설치는 어렵지 않습니다. 아무 선택 없이 Next만 누르면 됩니다.

Git for Windows의 설치가 제대로 되었는지 확인하려면 명령 프롬프트(Command Prompt)에서 git을 입력해보면 됩니다. 윈도우에서 '시작' 버튼을 눌러 메뉴를 호출한 후, 'cmd' 또는 '명령 프롬프트'라고 입력하여 명령 프롬프트를 실행할 수 있습니다.

이 상태에서 git을 입력하고 엔터를 누릅니다.

위와 같이 git이 명령어 리스트를 출력하면 Git for Windows가 정상적으로 설치된 것입니다.

다음은 https://www.python.org/downloads/release/python-3106/ 을 방문하여 Python을 설치해봅시다.

해당 홈페이지에서 스크롤을 아래로 내리면 Files 목록이 있습니다. 여기에서 Windows installer (64-bit)를 다운로드한 뒤 설치를 진행합니다.

Python 설치도 크게 어렵지는 않으나 주의해야 할 점이 있습니다. 다른 부분은 다 그대로 두고 우선 아래 쪽의 Customize installation을 선택합니다.

몇몇 선택지가 나오지만 Advanced Options가 뜰 때까지 Next만 누르면 됩니다.

Advanced Options가 나오면 반드시 Add Python to environment variables 항목에 체크해야 합니다. 설치 위치는 크게 상관없습니다. 설치가 완료된 이후, 특별히 확인할 사항은 없습니다.

이제 스테이블 디퓨전 web UI 본체(?)를 받을 차례입니다. 우선 스테이블 디퓨전 web UI가 설치될 폴더를 하나 만듭니다. 탐색기로 특정 위치에 만들어도 되고, 바탕화면에 만들어도 됩니다. 위 스크린샷은 바탕화면에 'stable diffusion'이라는 폴더를 만든 뒤 명령 프롬프트에서 stable diffusion 폴더까지 이동한 것입니다. 과거 DOS를 사용해보셨거나 윈도우 명령 프롬프트를 어느 정도 활용해 본 사용자라면 그리 어렵지 않겠으나, 그렇지 않다면 바탕화면에 stable diffusion이라는 폴더를 만들고 위 스크린샷대로 입력하면 됩니다. 참고로 'QZ'는 윈도우 사용자명이기 때문에 시스템에 따라 다르게 출력될 수 있습니다.
설치된 폴더로 이동했다면, git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui 라고 입력한 뒤 엔터를 누릅니다. 직접 쓸 필요 없이 노란 글씨를 긁어서 Ctrl+C, Ctrl+V 해도 됩니다. 주소를 보면 알 수 있듯이, 현재 설치 중인 스테이블 디퓨전 web UI는 앞서 언급한 AUTOMATIC1111이라는 유저가 배포하고 있는 web UI 툴입니다.

입력에 성공했다면 짧은 시간 후에 위와 같은 메시지가 출력되고 설치가 종료됩니다. 이제 명령 프롬프트는 닫아도 됩니다.

앞서 만들어둔 폴더에 들어가 보면 위와 같이 stable-diffusion-webui 라는 폴더가 있을 것입니다.

stable-diffusion-webui 폴더로 들어가 보면 다수의 폴더와 파일이 있는 것을 확인할 수 있습니다. 스테이블 디퓨전 web UI를 실행하는 것은 일단 뒤로 미루고, 이미지 생성에 필요한 'model'이라는 것을 먼저 확보하도록 하겠습니다.

model을 받기 위한 곳은 여러 군데가 있지만, 제일 유명한 곳 중 하나인 https://civitai.com/ 을 가보도록 합시다.

이 곳에서는 다양한 model을 찾아볼 수 있는데, 이미지의 왼쪽 상단을 보면 CHECKPOINT라고 되어 있는 것 중에서 마음에 드는 것을 받으면 됩니다. 용량은 보통 1~6 GB 수준으로 꽤 큰 편입니다. 이외에 CHECKPOINT XL이라는 것도 있는데, 이것은 별도의 스테이블 디퓨전 XL에서 사용하는 model입니다. 스테이블 디퓨전 web UI에서도 사용할 수는 있지만, model을 불러오거나 이미지 생성을 할 때 굉장히 느린 편입니다.

또한 LORA(Low-Rank Adaptation)라는 것이 있는데, 이는 기존 모델에 원하는 디자인 또는 캐릭터를 추가 학습하는 용도로 사용하는 저용량 model입니다. CHECKPOINT와는 별도 폴더에 저장해야 하며 이미지 생성 시 명령어를 추가하는 방식입니다. CHECKPOINT와 동일하게 model로써 사용할 수도 있긴 하지만, 위 사진과 같은 퀄리티는 절대 나오지 않습니다.

다운로드 받은 model 파일은 stable-diffusion-webui > models > Stable-diffusion 폴더 안에 넣습니다. 만약 LORA 파일도 받았다면 models > Lora 폴더에 넣으면 됩니다.

model까지 확보했다면 이제 스테이블 디퓨전 web UI를 실행시킬 차례입니다. 스테이블 디퓨전 web UI를 실행하는 파일은 stable-diffusion-webui 폴더 제일 아래 쪽에 있는 webui-user.bat입니다. 하지만 실행하기 전에 먼저 webui-user.bat 파일에서 마우스를 우클릭 한 뒤 메뉴에서 편집을 클릭합니다.

편집을 클릭하여 메모장이 뜨면, @echo off 상단에 git pull을 추가해줍니다. 추가하지 않아도 사용에 문제는 없지만, 실행할 때마다 스테이블 디퓨전 web UI의 업데이트를 진행해주기 때문에 버전 최신화에 도움이 됩니다.

중요한 것은 set COMMANDLINE_ARGS= 입니다. 이 뒤에 --precision full --no-half --no-half-vae --xformers --autolaunch를 입력해줍니다. 간단하게 설명하자면 정밀도 증가, 속도 증가, 일부 에러 무시, 자동 실행 등의 옵션이라 할 수 있습니다. 이외에도 시스템에 따라 VRAM 옵션을 지정할 수도 있는데, 명령어 리스트는 아래 링크(영문)에서 확인할 수 있습니다.
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Command-Line-Arguments-and-Settings
명령어 입력이 끝났다면 파일을 저장하고 webui-user.bat 파일을 더블 클릭하여 실행해줍니다.

처음 webui-user.bat를 실행했다면 3 GB 미만의 파일을 다운로드 합니다. 통신 속도에 따라 오래 걸릴 수도 있는데, 중간에 멈춘 것처럼 아무런 진행이 되고 있지 않아도 그대로 두어야 합니다. 앞서 webui-user.bat 편집 시 --autolaunch를 적용했다면, 다운로드가 끝나고 자동으로 웹 브라우저가 실행되면서 스테이블 디퓨전 web UI가 나타납니다. 명령 프롬프트 창은 닫히지 않고 그대로 있을텐데, 그냥 놔두시면 됩니다.

만약 webui-user.bat 편집 시 --autolaunch를 적용하지 않았다면, 수동으로 웹 브라우저를 켠 뒤 주소창에 http://127.0.0.1:7860/ 를 입력하면 스테이블 디퓨전 web UI가 실행됩니다.
고생하셨습니다! 이제 이미지 생성 AI를 사용할 준비는 완료되었습니다. 앞으로는 stable-diffusion-webui 폴더의 webui-user.bat 파일만 실행하면 언제든 스테이블 디퓨전 web UI를 사용할 수 있습니다.
스테이블 디퓨전 사용 방법 및 결과물 INSTRUCTION & RESULT
짧지 않은 설치 과정을 거쳤지만, 웹 브라우저만 봐서는 어떻게 사용하는지 알기가 어렵지요. model을 받지 않고 그냥 스테이블 디퓨전 web UI를 실행했다면 범용으로 사용할 수 있는 model이 다운로드되는데, 다운로드가 끝나고 무작정 오른쪽 상단의 Generate를 눌러보면 영문을 알 수 없는 이미지가 생성됩니다.(이상한 집안 풍경이라던가) 앞서 마음에 드는 model을 이미 다운로드 받아 stable-diffusion-webui > models > Stable-diffusion 폴더 안에 넣었다면, 아래에 설명하는 순서대로 따라하시면 됩니다.

웹 브라우저 왼쪽 상단, 주소 표시줄 바로 아래를 보면 Stable Diffusion checkpoint 라는 문구가 보입니다. 그 아래에는 드롭다운 메뉴가 있는데, 여기에 사용자가 다운로드 받은 model이 모두 표시됩니다. 만약 표시되지 않는다면 오른쪽의 파란색 새로고침 버튼을 누르면 됩니다. 당연하지만 CHECKPOINT로 설정할 수 있는 model은 한 개 뿐입니다. 생성하는 이미지의 장 수에 상관없이, 이미지 생성 1회에 사용되는 model은 한 개만 정할 수 있다는 뜻입니다.

사용할 model를 정했다면, 세세한 설정에 들어갑니다. 이번에 설명할 것은 텍스트 기반의 txt2img 뿐인 점 참고하시기 바랍니다.
우선 txt2img 탭 아래에 큰 빈 칸이 2개 있습니다. 상단이 Prompt, 하단이 Negative Prompt입니다. 이 두 개의 Prompt는 이미지 생성의 키워드로, 상단 Prompt에는 사용자가 원하는 요소를 넣고 하단 Negative Prompt에는 사용자가 원하지 않는 요소를 넣으면 됩니다. 영어 단어로 기재해야 하며, 자주 사용되는 Prompt의 예시는 아래와 같습니다.
□ Prompt
masterpiece:1.2, best quality, perfect anatomy, ultra-detailed, detailed face 등등
□ Negative Prompt
(bad hands, missing fingers, fewer fingers, strange fingers, bad anatomy, missing legs, missing arms, extra arms, bad legs, error legs, bad feet, bad proportions, extra limbs, long neck, cross-eye, worst quality, low quality, bad art:1.4), simple background, lowres, text, error, cropped, blurry, jpeg artifacts, ugly, mutation, deformed, disfigured 등등
어쩌다보니 Negative Prompt가 더 많이 적혔습니다만, AI 생성 이미지에서 가장 눈에 거슬리는 것이 손 모양 또는 기형이기 때문에 처음에는 Negative Prompt가 더 많을 것입니다.(어느 쪽에도 들어갈 수 있는 마법의 단어 nsfw) 사용자의 의도에 맞게 조절하다 보면 차차 Prompt의 양이 더 많아지게 되겠죠.
Prompt는 콤마 ','로 구분하며 Prompt:반영 수치로 해당 Prompt를 얼마나 반영할 것인지 정할 수 있습니다. 반영 수치는 보통 0.1~1.8 범위에서 정하며, 반영 수치가 없는 기본값은 1입니다. (Prompt, Prompt, Prompt:반영 수치)와 같은 식으로 여러 Prompt를 묶어서 같은 수치를 한 번에 반영할 수도 있습니다. Prompt에 대해 좀 더 공부(?)해보고 싶으시다면 openart.ai 사이트의 Prompt Book(바로가기), Prompt Template (바로가기)을 참고하시면 됩니다.

다음에 설정해야 할 것은 왼쪽 아래의 Generation 탭입니다. model 설정, Prompt 입력, Generation 탭 설정까지만 알아도 AI 이미지 생성의 기본은 웬만큼 알았다고 보셔도 됩니다.
□ Sampling method
샘플링 방식을 선택합니다. model마다 권장하는 샘플링 방식이 있습니다만, 일반적으로 퀄리티가 좋은 DPM++ SDE Karras 를 사용합니다.
□ Sampling steps
한 이미지를 만들 때 몇 번 샘플링을 하는지 지정합니다. 수치가 높을수록 퀄리티가 좋아지지만 속도는 느려집니다. 최소 20이 권장되며, 40 이상은 퀄리티에 큰 변화없이 생성 속도만 느려집니다. 경우에 따라선 높은 수치에서 퀄리티가 오히려 떨어지기도 합니다. 아래 벤치마크에서는 속도 비교를 위해 최대값인 150으로 설정했습니다만, 일반적으로 150까지 올릴 필요는 없습니다.
□ Width, Height
생성되는 이미지의 크기입니다. 기본인 512 x 512는 초상화 계열에 좋지만, 전신이 나와야 하는 경우 세로 길이를 늘리기도 합니다. 다만 Prompt에 따라 크기 설정을 잘 해줘야 하는데, Prompt에 서있는 포즈를 입력하고 가로 길이를 길게 설정하면 기형의 이미지가 나올 확률이 높습니다. 초상화를 입력하고 세로 길이를 길게 하면 얼굴이 두 개 붙기도 하니 만약 생성된 이미지가 딱 봐도 이상하면 이미지 크기를 알맞게 조절해보는 것이 좋습니다. 또한, 이미지 크기가 너무 크면 이미지 생성에 시간이 오래 걸리기 때문에 Width, Height 값은 작게 두고 후술할 Hires. fix 기능을 써서 해상도 업스케일링하는 방식을 사용합니다.
□ Batch count
Generate 버튼을 눌러 한 번에 생성되는 이미지의 갯수입니다. 아래 Batch size가 1일 경우 순차적으로 이미지 한 개씩 생성하기 때문에 딱히 성능에 영향을 미치지는 않습니다.
□ Batch size
한 번에 몇 개의 이미지를 병렬 처리할지 설정하는 수치입니다. 즉, Batch count x Batch size로 각각 4로 설정했다면 4 x 4로 16장의 이미지가 생성됩니다. 다만 이 경우 1회당 4장의 이미지를 한 번에 처리하기 때문에 VRAM 사용량이 증가하여, VRAM이 모자라다면 Batch size를 1로 설정했을 때보다 생성 속도가 더 느려집니다.
□ CFG Scale
Prompt를 얼마나 반영하는지에 대한 수치입니다. 수치가 작을수록 AI의 자유도가 올라가서 Prompt에 적힌 것을 무시할 확률이 높아집니다. 이 역시 모델마다 적정 수치가 있지만, 기본값인 7에서 바꾸지 않아도 큰 문제는 없습니다. 굳이 바꾼다 해도 최소 2, 최대 15 정도면 됩니다.
□ Seed
AI가 최초 노이즈 이미지를 생성할 때 사용하는 값으로, 어떤 이미지가 생성되는지에 대해 영향을 줍니다. 웹에서 AI가 생성한 이미지를 찾다 보면 이 Seed 값이 기록된 이미지가 있는데요. 해당 Seed 값을 입력하고 Prompt와 세팅까지 정확히 맞추면 똑같은 이미지를 생성할 수 있습니다. 기본값인 -1은 항상 다른 값을 가져오기 때문에 랜덤 이미지를 얻을 수 있습니다.
□ Hires. fix
txt2img에서 생성된 이미지의 해상도를 업스케일링 해주는 기능입니다. 기본적으로 비활성화 상태이지만, 오른쪽의 ◀ 버튼을 눌러 활성화할 수 있습니다. Upscaler 역시 모델에 따라 적합한 값이 다르며, Hires steps은 Sampling steps와 같게 맞춰주고 Denoising strength 값을 올렸을 때 같이 올려봅니다. Upscale by는 해상도 배수이며 최대 4배까지 설정할 수 있습니다.

세팅을 마치고 Generate 버튼을 누르면, 웹 브라우저에서도 진행도가 보이지만 명령 프롬프트 창에서도 진행도가 같이 표시되는 것을 볼 수 있습니다.

웹 브라우저의 결과에서는 사용자가 설정한 Prompt 및 세팅을 전부 표시해주며, Time taken으로 이미지 생성에 걸린 시간을 알려줍니다. 명령 프롬프트 창에서는 시간 외에 it/s라는 값이 표시되는데, 이는 Iteration per second로 ( Sampling steps(150) x Batch count(4) ) ÷ Time taken, 앞의 수치를 따르면 즉 600 ÷ 이미지 생성 시간(초)입니다. '초당 이미지 샘플링 수'라고도 표현할 수 있겠습니다. 참고로 생성된 이미지는 stable-diffusion-webui > outputs 폴더 내에서 찾을 수 있습니다. 어떤 방식으로 이미지를 생성했느냐에 따라 outputs 내 저장된 폴더가 달라집니다.
일단 스테이블 디퓨전 web UI를 설치하고 사용하는데 있어 필수적인 것은 대부분 다루었습니다. 물론 언급하지 못한 부분도 많고 img2img라던가 Textual Inversion, Hypernetworks, controlnet 등은 다루지 못했으나 기본적인 AI 이미지 생성은 충분히 해볼 수 있을 것입니다. 성공적인 이미지 생성을 기념하며, 아래에 몇 가지 결과물을 보여드리도록 하겠습니다.

앞서 언급했던, CHECKPOINT가 아닌 LORA만으로 만든 고양이 이미지입니다. 퀄리티는 확실히 떨어지고 손 볼 곳도 많지만 나름 그럴 듯한 이미지가 나오기는 합니다. 768 x 512 사이즈입니다.




400 x 800 사이즈의 결과물 4개를 모아보았습니다. 중간에 스파이가 있는 것 같지만 기분 탓입니다. 어느 정도 잘 나온 편이라 생각되는 결과물을 얻기 위해서 수십 번을 생성해보았지만, 역시 제일 잘 나온 것은 정체를 알 수 없는 컵같은 것이라는 점이 슬픕니다.




위, 아래 model이 다른 600 x 448 결과물입니다. AI 생성 이미지는 역시 손이 없어야 괜찮다는 것을 다시 한 번 느낄 수 있습니다.



512 x 1024 결과물입니다. Negative Prompt로 그렇게 손발을 망가뜨리지 말라고 했는데도 AI가 말을 안듣습니다.
그림 생성 시간 벤치마크 IMAGE GENERATING TIME BENCHMARK

스테이블 디퓨전 web UI로 이미지 생성 시 그래픽카드에 따른 차이를 확인해보기 위해, NVIDIA 그래픽카드 6종을 준비했습니다. AMD 그래픽카드도 테스트를 진행하여 비교해보려 했으나, 앞선 설치 방법과는 다른 방식으로 최적화하여 설치해야 하는 이슈가 있어 이번 테스트에서는 제외하였습니다.


상단 그래프는 Sampling steps 150 설정 상태에서 400 x 800 이미지 4장을 순차적으로 생성했을 때 걸린 시간입니다. 그래픽카드 성능 그대로 생성 시간이 반영된 모습입니다. RTX 4060 대비 RT 4090은 7배 가량 빠른 속도를 보였으며, 해당 설정에서는 6 GB의 VRAM을 소모하기 때문에 추가로 느려지는 현상은 없었습니다. 만약 Batch Size까지 늘려서 이미지를 생성한다면 VRAM에 따른 격차가 더 커지겠습니다.
하단 그래프는 ( Sampling steps x Batch count ) ÷ Time taken 공식으로 구한 Iteration per second 값입니다. 초당 샘플링이 진행되는 횟수라 할 수 있으며, 이 역시 그래픽카드 성능이 그대로 반영된 결과를 보입니다. 게임 벤치마크와 동일한 양상으로 판단되며 스테이블 디퓨전 web UI를 활용하여 AI 이미지 생성을 빠르게 여러 번 돌려보고 싶다면 성능이 높은 그래픽카드를 고려해보는 것이 좋겠습니다.