Stable diffusion AI를 활용한 독창적인 이미지 생성 과정과 저작권 규제에 대응하는 전략 - 상

2025. 7. 13. 12:24Painting

Stable diffusion AI를 활용한
독창적인 이미지 생성 과정과
저작권 규제에 대응하는 전략

 

성포고등학교 3학년 5반 박강귀

 

1. 서론

최근 몇 년간, 확산 모델(Diffusion Models)을 기반으로 한 생성형 AI 기술이 비약적인 발전을 이루었다. 이러한 모델은 텍스트 입력을 기반으로 이미지를 생성할 수 있으며, 실제로 OpenAI의 DALL·E 2와 같은 대표적인 시스템 역시 확산 모델 방식을 채택하고 있다. 그러나 대규모 이미지 데이터를 학습한 생성형 AI는 학습 이미지와 유사한 결과물을 만들어낼 수 있기 때문에, 저작권 침해에 대한 우려가 점점 커지고 있다. 그럼에도 불구하고, 생성형 AI는 기존의 디지털 창작 도구들을 능가하는 유용성과 효율성을 제공하며, 이를 완전히 배제하기는 어렵다. 현재 전 세계는 이미지 생성 AI의 가능성에 주목하고 있으며, 다양한 분야에서 이를 활용하려는 시도가 활발하게 이루어지는 동시에, 윤리적 문제, 저작권 침해 가능성, 직업 대체 우려 등에 대한 논의도 함께 이어지고 있다. 생성형 AI는 앞으로의 디지털 창작 환경에서 중요한 역할을 담당할 것으로 예상되며, 이에 따라 콘텐츠 창작자들은 AI와 협업하는 능력뿐만 아니라, 프롬프트 작성에 대한 기본적인 이해 역시 갖추어야 한다는 목소리가 커지고 있다(권동현, 2024, p. 341). 이러한 흐름 속에서 본 탐구의 목적은 다양한 텍스트 프롬프트, LoRA, 샘플러, ControlNet 등 여러 변수들을 조합해 창의적이고 독창적인 이미지를 생성해보는 데 있으며, 동시에 이러한 기법들이 기술적으로 저작권 규제를 우회할 가능성에 대해서도 고찰하는 데 있다.

실험 방식 자체가 저작권법에 저촉되는지 여부도 살펴보겠지만, 이 탐구에서 진정으로 다루고자 하는 바는 단순한 법률 해석이 아니다. 오히려 저작권법의 틀 안에서 자유롭게 창작을 실현할 수 있는, 기술 기반의 창의적인 가능성을 제시해 보고자 한다.

 

2. 선행연구

2.1 Stable diffusion 선택의 이론적 배경

이미지 생성에 활용되는 확산모델은 노이즈를 점진적으로 제거하는 과정을 학습하여 새로운 데이터를 생성하는 생성모델이다. 즉, 훈련 데이터(이미지)에 가우시안 노이즈를 점진적으로 추가하고, 이를 다시 복구하는 방법을 학습하는 것이다. 학습이 완료된 모델에 무작위 노이즈를 입력하면 학습된 복원 과정을 거쳐 새로운 이미지를 생성할 수 있다. 예를 들어 이미지 생성 프로그램 중 하나인 Stable Diffusion은 텍스트 프롬프트를 받아 이를 잠재공간상의 노이즈 이미지로 변환한 뒤, 학습된 (U-Net) 네트워크를 통해 반복적으로 노이즈를 제거하면서 최종 이미지를 복원한다.

탐구를 위해 가장 먼저 고려한 것이 이미지 생성 실험을 위한 이 확산모델 선택이다.
Midjourney, DALL·E, Adobe Firefly, Stable Diffusion 등의 여러 이미지 생성 모델을 각각 사용해 본 결과 Stable Diffusion, 그중에서도 노드 기반으로 조작이 가능한 인터페이스인 ‘ComfyUI’를 선택하였다. 각 모델의 장단점을 분석해 본다.

Midjourney는 가장 먼저 고려해본 모델로, 높은 이미지 생성 퀄리티와 초보자에게 친숙한 접근성을 가진 강력한 프로그램이다. 프롬프트 입력만으로 간단히 이미지를 생성할 수 있다는 장점이 있지만, Discord UI를 기반으로 작동하기에 디스코드 가입과 채팅 방식이라는 불편함을 감수해야만 한다. 채팅으로 내린 명령으로 생성되는 이미지는 다음 이미지에 밀려 계속 위로 올라가므로 이전 그림을 찾기 위해 위아래로 움직이며 게시글을 찾아야 한다. (권동현, 2024, p. 345) 또한 무료 체험이 제한되어 있으며 특히 LoRA와 같은 세부설정을 조작할 수 없다는 치명적인 단점을 가지고 있어 탐구, 실험용으로 적절하지 않다는 결론을 내렸다. Chat GPT와 통합하여 사용할 수 있는 DALL·E도 고려해 보았지만, 세부조정을 조작할 수 없다는 Midjourney와 비슷한 단점을 가지고 있어 후보에서 제외되었다.

Adobe Firefly는 Adobe 제품과 통합되며, 어도비 스톡을 사용하여 상업적 사용이 완전히 자유롭다는 매력적인 장점이 있다. 하지만 어도비 스톡의 특성상 개인이 촬영한 사진이 많고, 유명작가의 작품이 적어 출력 퀄리티가 낮으며, Adobe 계정 및 유료 구독 필요하기에 (권동현, 2024, p. 349) 후보에서 제외되었다.

Stable Diffusion을 선택한 이유는 실험, 탐구에 매우 적절한 모델이었기 때문이다.
유일하게 서버에서 작동되지 않는 로컬환경 즉 개인 PC에서 동작하는 모델이며
오픈 소스 프로그램이기에 이미지 생성 설정값을 완전히 자유롭게 조작할 수 있었다. 또한 ComfyUI와 같은 편리한 UI 툴도 적용시킬 수 있으며, 비용도 들지 않는다.
그만큼 세팅과 조작법이 복잡하고 개인 PC에서 구동되는 만큼 높은 GPU 사양을 요구한다는 단점도 존재하지만, 실험용으로 사용된 GTX 3080 그래픽카드 탑재 PC에서 큰 문제는 되지 않았다.

2.2 저작권 규제에 대응하는 전략

AI 이미지 생성을 다루면서 저작물의 독창성과 저작권 보호 문제를 다루지 않을 수 없다. AI와 관련된 저작권 이슈는 현재 완전히 그 조례가 정해지지 않은 민감한 주제이기 때문에 다양한 근거를 참고하였다.

현재 Chat GPT와 같은 대중에게 널리 알려진 모델은 사용자가 이미지 생성을 요구하였을 때 이미지 생성 과정이 저작권 문제에 휘말리는 것을 극도로 꺼려한다. 저작권자가 사망한지 70년 이상이 지난 고흐, 미켈란젤로의 작품을 토대로 이미지 생성을 요청하면 문제없이 이미지를 생성해 주지만, 현존하는 예술가인 장 폴 바스키아와 무라카미 다카시, 그리고 고인이 되었으나 저작권으로 보호받는 키스 해링의 스타일로 이미지를 요청하였을 때는 저작권 규제로 인해 이미지를 생성할 수 없다는 메시지가 출력된다. 하지만 이러한 제한 조치는 AI 시스템의 창의성과 유용성을 제한할 수 있으며 이는 AI 도구를 활용할 미래의 수많은 컨텐츠 제작자들에게 매우 큰 제약이다. 그러므로 강력한 예방 조치가 마련된다면, 즉 효과적인 필터링과 신속한 기술 덕분에 출력 결과가 저작권을 침해하지 않을 것이라는 확신이 있다면,더욱 유연해진 법적 요건으로 인해 개발자는 학습 목적으로 더욱 광범위한, 저작권이 있는 저작물을 양질의 이미지 생성에 사용할 수 있게 해야 한다. (Oppedal, N. M. , 2023, p. 34) 

AI 학습에 사용되는 작품의 원저작권자들은 반발할지도 모른다. 그러나 Stable Diffusion의 개발사는 이미지 생성형 AI가 이미지 조각을 어딘가에 저장하는 것이 아니라 수학적 표현으로 압축하였다가 텍스트에 매칭되는 이미지를 생성하는 것이므로 ‘저작물의 변형적 이용이다’ 라는 취지의 주장으로 대응하고 있다.
즉 AI 생성물이 원저작물과 유사하더라도 그 생성물이 원저작물을 이용하여 만들졌다는 점이 인정되어야 하는데, 현재 AI가 이미지를 학습하는 방식을 근거로 원저작권자가 이를 증명하는 것은 쉽지 않다는 것이다. (김효정, 이호용, 2023, p. 35) 게다가 현재 저작권법은 ‘아이디어’가 아닌 ‘표현’을 보호 대상으로 하고 있으므로,  구체적인 표현이 아닌 화풍이나 스타일은 보호 대상에 포함되지 않는다.
(박성호,  「저작권법」제2판,  박영사,  2017,  57-104면.)  즉, AI가 데이터 학습을 통해 추상적인 패턴을 추출하여 새로운 이미지를 생성한다면 창작자의 개성, 스타일,  ‘화풍’을 모방하는 것이므로 이에 대해 현행 저작권법으로 다루기는 어려울 것이다.
(김효정, 이호용, 2023, p. 35)

 

위 내용을 고려했을 때, 결론적으로 이 탐구활동에서 채택할 전략은 다음과 같다.
1. 저작권이 만료된 공공 도메인 이미지, CC0 라이선스 이미지, 또는 저작권자가 명시적으로 AI 학습용으로 제공한 데이터셋을 적극적으로 활용한다.
2. LoRA 기법을 활용하여 저작권이 존재하는 작품의 ‘화풍’이나 ‘그림체’를 간접적으로 반영하는 방식으로 이미지를 생성한다.
3. 이미지 생성 후 직접적인 수정, 필터링, 가공 등의 과정을 거쳐 생성 결과물의 2차 창작 성격을 강조하고, 생성형 AI를 단순한 ‘도구’로 사용했다는 점을 분명히 한다.
4. 이미지 생성 과정에서의 프롬프트, 설정값, 조작 노드 등의 로그와 데이터를 꼼꼼히 기록하여, 향후 저작권 관련 이슈 발생 시 창작자의 개입과 기여를 입증할 수 있는 근거로 활용한다.
5. 변형을 하더라도 ‘누가 봐도 알 수 있는’ 수준의 유명 IP(디즈니, 마블, 포켓몬등)에 속한 특정 캐릭터, 상표, 로고 등의 사용은 가급적 피한다.
6. AI가 생성한 이미지를 다시 AI 학습에 사용하는 방식을 고려하되, 원본과 지나치게 유사한 이미지는 제외하고, 사람의 판단을 거쳐 독창성과 변형이 확보된 데이터만 재학습용으로 활용한다.

2.3 ComfyUI에서 사용되는 기본적인 노드구조

ComfyUI는 Stable Diffusion의 세부 설정을 노드 기반으로 직관적으로 조작할 수 있게 해 주는 인터페이스로, 이미지 생성 워크플로우에서 필수적으로 사용되는 여러 핵심 노드들이 존재한다.

[그림 1] Checkpoint Load 노드

Checkpoint Load 노드는 전체 이미지 생성의 중심이 되는 기반 모델을 메모리에 불러오며, 이후 LoRA나 텍스트 프롬프트와 결합되어 작동한다. 노드 구조에서 가장 먼저 정의되어야 하는 노드이다.

[그림 2,3] LoRA Load 노드와 positive, negative CLIP 프롬프트 노드

LoRA(Low-Rank Adaptation) Load 노드는 기존 모델에 대해 경량 학습된 LoRA(저용량 적응 모델)를 적용하여 체크포인트 만으로는 정확히 구현이 힘든 특정 스타일이나 캐릭터를 반영하거나, 부족한 디테일을 추가하는 기능을 수행한다. LoRA 적용 강도를 변경하여 캐릭터의 특성이 어느정도 반영될 지 조작할 수 있다.

CLIP 프롬프트 노드는 ‘원하는’ 이미지의 특징을 텍스트 형태로 입력하는 positive 프롬프트 노드와, ‘피하고 싶은’ 이미지의 특징을 텍스트 형태로 입력하는 negative 프롬프트로 나뉜다. 입력한 텍스트는 수백차원의 벡터 형태로 변환되며, 이미지 생성시의 가중치로 작용한다. 높은 퀄리티의 벚꽃으로 둘러싸인 지브리 스타일 배경 이미지를 제작하고 싶다면 positive CLIP 프롬프트에 다음과 같이 입력한다.

surrounded by cherry blossom trees, ultra-detailed, ghibli style (pixel art)

반대로 피하고 싶은 특성은 negative CLIP 프롬프트에 입력한다.

(worst quality, worst aesthetic, bad quality, artistic error, extra digits), blurry

괄호 안에 작성된 특성은 이미지에 더욱 잘 적용된다.

Image Load 노드는 말 그대로 이미지 생성에 참고할 이미지를 불러올 때 사용하는 노드이다. 그리고 이 이미지(픽셀)를 Latent 공간으로 변환하는 노드가 VAE Incode 노드이다. Stable Diffusion 모델은 실제 이미지가 아닌 Latent 공간에서 연산을 수행하므로, 기존 이미지를 활용하려면 반드시 이 노드로 변환해줘야 한다.

VAE는 Variational Auto Encoder의 약자이며, 고해상도 이미지를 수백 배 축소한 형태로 저장된다. 이미지 입력과 연관된 기능에 반드시 필요한 노드 중 하나이다.

 

[그림 4] Image Load 노드와 VAE Incode 노드

[그림 5] KSampler 노드와 VAE Decode, 이미지 저장 노드

KSampler 노드가 이미지를 실제로 생성하는 노드이다. 체크포인트와 LoRA가 적용된 모델 정보와 CLIP 프롬프트, VAE 인코드 노드로 변환한 이미지 latent 정보를 기반으로 노이즈를 점차 제거하여 (diffusion 방식) 최종 이미지를 생성한다. 

KSampler 노드의 출력은 latent의 형태이므로, 이를 다시 실제 RGB 이미지로 변환하는 작업을 수행하는 것이 VAE 디코드 노드이다. 생성된 이미지는 이미지 저장 노드를 통해 파일 디렉토리에 저장되며 노드 구조가 마무리 된다.

가장 기본적이고 필수적인 노드 구조의 흐름은 다음과 같다.

Checkpoint Loader → (LoRA Loader) → CLIP Text Encode (Positive/Negative) → KSampler → VAE Decode → Save Image 



3. 방법

3.1 참여자

Stable Diffusion 모델을 활용하여 저작권 규제를 회피할 수 있는 창의적인 AI 이미지 생성 방법을 모색한다. 이를 위해 다양한 노드를 하나하나 조작해 보며, 각 조건에 따라 최적의 결과물을 도출해내는 실험적 방식을 취한다.

[그림 6] ComfyUI 노드 구성 전체 화면

사용 체크포인트 (SD, XL, NoobAI 모델 기반) :

[그림 7] 사용 Checkpoint(모델) 파일 목록

 

사용 LoRA:

[그림 8] 사용 LoRA 파일 목록

-civitai

Civitai는 Stable Diffusion 기반의 이미지 생성 모델 및 LoRA, 체크포인트 모델 등을 공유하고 다운로드할 수 있는 커뮤니티 기반 플랫폼으로, 전 세계 사용자들이 직접 만든 다양한 모델을 자유롭게 업로드하고 평가하며 사용할 수 있게 해 준다.

[그림 9] civitai 웹사이트 화면 

이 플랫폼은 모델의 성격, 추천 프롬프트, 예시 이미지 등을 함께 제공함으로써, 사용자들이 각 모델의 활용법을 빠르게 이해하고 자신의 이미지 생성 작업에 효율적으로 적용할 수 있도록 돕는다. 특히 LoRA 제작 시에는 유사한 용도의 기존 모델들을 참고하거나 비교함으로써, 제작 방향을 설정하거나 품질을 조정하는 데 매우 유용한 자료로 활용할 수 있었다.

다루었던 노드 목록 :
- 텍스트 프롬프트(CLIP 임베딩 벡터 조작)
- Sampler 노드(노이즈를 제거해 나가는 방식)
- checkpoint(사용하는 이미지 생성 모델)
- Lora(가중치를 고정하는 기법)
- controlnet + 3d (pose,canny,depth 등을 실제 이미지에서 추출해 적용)
- img2img(이미지 직접 변환)
- VAE(모델이 연산한 내용 후처리. 색감과 디테일에 큰 영향을 준다)
- inpainting (마스크를 씌운 부분만 AI가 변형)
- Character Lora 직접 생성(원하는 Lora가 없으면 직접 만들어야한다.)
- Style Lora 직접 생성
(AI 생성 이미지를 다시 LoRA 학습에 사용하는 전략을 사용한다).
                [그림 10] 캐릭터 LoRA 제작을 위한 학습 전략

이미지 리터칭: 생성된 이미지에 대해 Clip Studio Paint, Aseprite 등의 툴을 활용하여 후처리를 진행한다. 이 과정에서는 색상과 명암을 보정하고, 세부 요소를 추가하거나 제거하여 이미지의 완성도를 높인다. 이러한 리터칭 작업은 최종 설문조사 대상 이미지를 선정하기 전, 결과물의 미적 완성도를 높이기 위한 목적으로 수행된다.

평가(설문조사): 완성된 이미지들을 바탕으로 독창성(창의성)과 유사성(기존 캐릭터나 저작물과의 닮은 정도)을 평가하기 위한 설문조사를 계획하고 있다. 설문은 실제 아티스트의 작품과 AI로 생성된 이미지를 비교하여, 어떤 이미지가 AI 생성 이미지인지 판별하는 방식으로 진행되며, 응답자에게 이미지의 독창성과 학습에 사용된 원본 작품과의 유사성에 대한 의견을 함께 기록하도록 요청할 예정이다. (추후 실시 예정)

 [그림 11] civitai LoRA 파일의 라이선스 문구

이미지 학습 및 생성에 사용된 이미지 파일과 웹사이트(civitai)에서 불러온 checkpoint, LoRA, VAE 파일 등은 탐구를 위한 비상업적 용도로 사용하기 위해 라이선스 문구를 모델 하나마다 꼼꼼히 확인하였다. 대부분의 모델이 CC BY-NC-ND와 유사한 라이선스를 가지지만, 저작자 표시는 필요하지 않은 커스텀 라이선스를 보유하고 있었다. 그러나 CC 라이선스는 현재 저작권법이 부여하는 권한 범위 내의 사용만 명시할 뿐, AI 학습이나 생성물에 적용되는 모든 법적 문제까지 해결하지는 않는다. 따라서 CC 라이선스 여부와 관계없이, 생성된 이미지의 사용 및 유사성 여부는 추가적인 법적·윤리적 검토가 필요할 것이다.

[그림 12] cmd에서 ComfyUI 실행 

cmd 화면에서 ‘python main.py’를 입력하여 배치파일을 실행하면
버전, PC정보, 커스텀 노드 유무와 함께 링크를 제공해 준다.

 

4. 결과

     4.1 text2img

Text2Img는 말 그대로 "텍스트 프롬프트를 기반으로” 이미지를 생성하는 과정이다. Stable Diffusion의 기본적인 사용 방식으로, 선행 연구에서 정리한 워크플로우도 Text2Img 노드 구조에 해당된다.

Text2img 방식의 이미지 생성은 주로 체크포인트 로드 노드, LoRA 로드 노드, CLIP 프롬프트 노드 — 이 세 가지 노드의 설정 값을 조절하는 과정을 통해 이루어진다.

출력된 예시 이미지를 통해, 높은 품질의 출력 이미지를 위해 각 노드에 어느정도의 가중치를 두었고, 추가적인 기능이 사용되었는지 확인한다.

약 4200번 가량의 이미지 출력 시도를 통해 1100장 정도의 양질의 이미지를
얻어낼 수 있었다.

 

[그림 13] 출력 이미지 파일 디렉토리

가장 먼저 시도한 이미지 생성 주제는 ‘캐릭터 디자인’이었다. 특히 text2img 방식의 실험에서는 모바일 게임 ‘트릭컬 리바이브’의 그림체 LoRA를 활용하였는데, 이 LoRA는 의상, 표정, 액세서리 등의 요소를 컴팩트하고 자연스럽게 표현해 주며, 다른 캐릭터 LoRA와 조합했을 때도 높은 호환성과 시너지를 보여주는 특징이 있다 판단하였기 때문이다. 

[그림 14] 모바일 게임 ‘트릭컬 리바이브’의 그림체

탐구에서 사용한 트릭컬 리바이브 그림체 LoRA 파일은 ‘noobai’ 체크포인트 환경에서만 구동되는 LoRA였기에 가장 자주 사용되는 sd 1.5 계열의 체크포인트가 아닌 애니메이션 그림체에 특화된 SDXL계열의 체크포인트를 civitai에서 다운로드 받아 사용하였다. ‘noobai’ 체크포인트는 SDXL의 파인튜닝 모델(Fine Tuned Models)으로, 기존 SDXL 모델을 복사해서 일부 스타일이나 데이터셋을 추가해 재학습한 모델이기에 noobai 체크포인트를 사용하면 대부분의 SDXL 모델을 위한 기능 노드와 호환된다.



[그림 15, 16] 트릭컬 LoRA를 활용한 캐릭터 이미지 생성 시도

수십 번의 시행착오 끝에 트릭컬 그림체를 가진 캐릭터를 자유롭게 생성할 수 있게 되었다. 아직 캐릭터 LoRA는 적용하지 않았기에 특정 캐릭터의 특징을 가지고 있지는 않고, CLIP 프롬프트에 입력한 의상, 머리카락 색깔만을 반영했다.

 

CLIP 프롬프트를 조작하여 캐릭터의 표정, 의상, 포즈를 자유롭게 조작할 수 있게 되었으니, 실제 존재하는 캐릭터를 ‘트릭컬 리바이브 스타일’로 변환하는 작업을 시도하였다. 이 과정에서는 당연히 특정 캐릭터의 특징을 부각시켜주는 역할을 하는 캐릭터 LoRA도 civitai에서 다운받아 적용해 주어야 했다.

[그림 17, 18, 19] 애니메이션 ‘신세기 에반게리온’의 캐릭터 아스카 1차 생성 시도

위 이미지는 civitai에서 내려받은 아스카 캐릭터 로라의 강도를 0으로 설정하여 적용을 받지 않게 한 결과물이다. 체크포인트 모델 자체에서도 이 아스카라는 캐릭터를 학습해 보았기 때문에 특징을 살려 출력해 준 모습이지만, 비율, 색감, 트릭컬 리바이브의 그림체 재현율에 있어 만족스럽지는 않다.

[그림 20, 21, 22] 애니메이션 ‘신세기 에반게리온’의 캐릭터 아스카 2차 생성 시도

noobai 체크포인트 모델에서 적용되는 아스카 전용 로라의 강도를 0.9 ~ 1로 강하게 설정하니 아스카의 캐릭터 정보를 정확하게 담으면서도 트릭컬 그림체를 매우 자연스럽게 소화해 내고 있는 모습이다. 다만 negative CLIP을 섬세하게 입력해 주지 않아 어색한 배경이 생기거나 특정 신체 부위(특히 팔이나 손, 볼)가 늘어나는 현상을 보이기도 했다. 이 문제를 해결하기 위한 자세 교정 기능인 controlnet은
4.2 img2img에서 다룬다.

 

또 다른 캐릭터, uno miku의 캐릭터 LoRA도 다운받아 이미지를 생성해 보았다.

[그림 23, 24, 25] 캐릭터 ‘uno miku’의 1차 생성 시도

LoRA의 강도를 0으로 설정하니 [그림 18, 19, 24]과 같이 캐릭터의 특징은 존재하나 어색한 느낌이 강했고, 강도를 1 부근으로 설정하니 최적의 결과물이 생성되었다.

이번에는 포즈의 왜곡, 어색한 배경, 신체의 변형을 막기 위해 negative CLIP 프롬프트를 적극 활용하였다. 손가락이 4개인 트릭컬 그림체의 특징을 살리기 위해 positive 프롬프트도 상세하게 작성하였다. 사용한 노드 설정은 다음과 같다.

 

- 너비 1024 높이 1578

- 미쿠 로라 : 모델강도 0.8, clip강도 0.9

- 트릭컬 스타일 로라  : 모델강도 0.9, clip강도 0.35

 

-positive CLIP

(trickcalcg), (masterpiece, best quality),blush,(no white edge) blush stickers, 4 fingers, absurdres(터무니 없이 큰 해상도를 뜻한다.), highres, newest, very awa

white background(하얀색 배경 설정하여 어색한 배경을 피한다.)

,smile, (crisp outlines), no outer glow, uno miku,soft gradient,teal twintail hair

(chibi only:0.8)(이렇게 프롬프트에 입력한 단어가 적용될 강도도 조절할 수 있다.)

 

-negative CLIP

(worst quality, worst aesthetic, bad quality, artistic error, extra digits)

blurry,broken lines,nsfw,peace sign, v pose

clone,multiple people

 

사용된 LoRA는 총 두 가지로, 트릭컬 스타일 LoRA와 Uno Miku 캐릭터 LoRA이다.

트릭컬 리바이브라는 게임의 특성상 캐릭터 이미지 대부분이 정면에서 서 있는 자세로 구성되어 있어, 해당 스타일을 학습한 트릭컬 LoRA는 포즈 표현의 다양성 면에서는 제한이 있다. 반면, Uno Miku LoRA는 다양한 자세의 이미지들을 학습 데이터로 포함하고 있어 포즈 조절에 더 유리하다.

따라서 서 있는 자세를 생성하는 경우에는 트릭컬 LoRA의 스타일을 강조하고, 그 외의 포즈를 생성할 때는 Uno Miku LoRA의 가중치를 상대적으로 높이는 것이 더 효과적인 전략이라 할 수 있다. 

 

[그림 26, 27] 캐릭터 ‘uno miku’의 2차 생성 시도

uno miku LoRA의 강도를 상대적으로 높이니 캐릭터의 특징이 더욱 부각되고 트릭컬 리바이브에서 구현되지 않아 학습할 수 없었던 앉은 자세도 자연스럽게 생성해 낼 수 있었다. 

이처럼 LoRA 간의 유동적인 가중치 조절과 프롬프트의 세밀한 조작이 text2img 방식에서 핵심적인 요소로 작용한다.

 

앞서 살펴본 바와 같이, LoRA는 여러 개를 중첩하여 사용하는 것이 가능하다. 다만, LoRA의 개수가 많아질수록 각 모델의 특성이 서로 충돌할 가능성이 높아지고, 그에 따라 의도와 다른 이미지가 생성될 확률도 증가한다. 다양한 조건에서 LoRA 조합을 실험해본 결과, 아래와 같은 순서로 LoRA 노드를 연결하는 방식이 가장 안정적이고 이상적인 결과물을 도출할 수 있었다.

 

모델 - 캐릭터로라 - 그림체로라 - 배경, 스플래시 로라 - 디테일 로라 - 스타일 로라

[그림 28] 이상적인 LoRA 노드 배치 순서

또한 LoRA마다 호환되는 모델 체크포인트 모델이 다르기에 현재 사용하는 체크포인트 종류(sd 1.5, SDXL, NAI 등)에 따라 요구되는 LoRA가 다르다.

이러한 점들을 고려하지 않고 이미지를 생성한 결과물은 다음과 같다.

[그림 29, 30, 31] 체크포인트 종류, LoRA 배치 순서를 고려하지 않았을 경우

[그림 29]은 noobai 체크포인트 모델 환경에서 sd 1.5용 트릭컬 LoRA를 사용한 결과이다. 같은 트릭컬 LoRA이지만, 서로 다른 체크포인트는 완전히 다른 연산 방법을 가지고 있기에 생기는 현상이다. 반드시 LoRA는 그 체크포인트와 짝을 맞추어 주어야 정상적으로 이미지가 출력된다는 것을 확인할 수 있다.

[그림 30, 31]는 픽셀 아트로 그려진 일본 신사 배경 이미지 생성을 시도한 모습이나, LoRA의 배치 순서를 고려하지 않아 LoRA 설정이 서로 뒤섞이는 현상이 일어났고 보기 좋지 않은 결과물이 생성되었다. 반면, 배경 로라를 적용한 후 픽셀아트 ‘스타일’ 로라를 적용한 경우, 의도한 이미지가 생성된 모습이다.

[그림 32, 33] 체크포인트 종류, LoRA 배치 순서를 고려하였을 경우

LoRA의 배치 순서만 적절히 조절한다면, 당연히 캐릭터 LoRA도 배경이나 그림체(스타일) LoRA와 충분히 조합하여 사용할 수 있다

[그림 34, 35] 애니메이션 ‘체인소 맨’의 캐릭터 마키마 생성 시도 

정면의 캐릭터에는 체인소 맨 마키마 LoRA, 뒷 배경에는 지브리 스타일 배경 LoRA를 조합하였다. 이외의 선글라스, 양복, 더 진해진 머리카락은 굳이 전용 LoRA를 사용하지 않아도 CLIP 프롬프트를 통해 충분히 구현 가능했다.

캐릭터 LoRA와 픽셀 아트 스타일 로라의 합성도 시도해 보았다.
[그림 36]도 충분히 좋은 이미지이지만, 픽셀아트 특유의 딱딱한 검은색 외곽선이 어색해 보인다. 이를 보완하기 위해 negative CLIP 프롬프트를 조작하여 검은색 외곽선 대신 인접한 면의 색상과 비슷한 외곽선을 사용하도록 하였다.

[그림 38]에서는 배경 LoRA까지 총 3개의 LoRA가 사용된 이미지이다. CLIP 조작을 통해 [그림 39]와 같이 배경만 픽셀아트 LoRA가 적용되게 할 수 있다.

[그림 36, 37, 38, 39] 캐릭터 LoRA, 배경 LoRA, 스타일 LoRA의 다양한 합성

 

text2img에는 한가지 명확한 한계점이 존재한다. civitai에서 LoRA를 다운받을 수 없을 만큼 유명하지 않은 캐릭터를 생성하고 싶다면 어떻게 해야할까? 캐릭터 LoRA가 없으니 당연히 체크포인트 모델도 이 유명하지 않은 캐릭터에 대한 학습 데이터를 가지고 있지 않을 것이다. 아래는 트릭컬 리바이브의 신 캐릭터 ‘네티’를 캐릭터 LoRA 없이 캐릭터의 특징만을 CLIP 프롬프트에 입력한 결과이다.

[그림 40, 41, 42] 트릭컬 리바이브의 신규 캐릭터 ‘네티’ 생성 시도

    

출시된 지 얼마 되지 않은 캐릭터이기 때문에 아직 해당 캐릭터의 LoRA는 제작되지 않았다. 따라서 캐릭터의 외형적 특징을 CLIP 프롬프트에 직접 입력하는 방식으로 이미지를 생성할 수밖에 없었으며, [그림 41, 42]에서 확인할 수 있듯이 이 방식은 세부적인 디테일을 정확하게 재현하는 데 한계가 있었다.

이 문제를 해결해줄 방식이 바로 img2img이다.