Stable diffusion AI를 활용한 독창적인 이미지 생성 과정과 저작권 규제에 대응하는 전략 - 번외

2025. 7. 13. 12:27Painting

  4.3 맞춤형 LoRA 제작

트릭컬 리바이브 LoRA처럼 마이너한 LoRA는 특정 개인이나 소규모 그룹이 제작한 경우가 많아, 다양한 모델과의 호환성이 떨어지고 특정 체크포인트 모델에서만 제대로 작동하는 경우가 많다. uno miku 캐릭터 LoRA처럼 유명한 캐릭터 기반 LoRA도 비슷한 문제를 가진다. 여러 모델 버전용으로 다양하게 제공되기는 하지만, 모델을 교체할 때마다 그에 맞는 LoRA 파일도 함께 바꿔야 하는 번거로움이 존재한다. 즉, LoRA는 강력한 커스터마이징 도구이지만, 모델 호환성과 관리의 불편함이라는 단점도 함께 갖고 있다.

원하는 모델용 LoRA가 필요한데, 캐릭터가 너무 마이너하여 Civitai 등에서 LoRA를 찾을 수 없는 경우, 직접 모델을 학습시켜 맞춤형 LoRA를 제작하는 방법을 고려해볼 수 있다. 이 방식은 다소 시간이 걸리고 세팅이 복잡할 수 있지만, 특정 스타일이나 캐릭터를 정확히 반영하고 싶은 경우에는 가장 효과적인 해결책이 될 수 있다.

리그오브 레전드의 캐릭터 ‘포로’는 사람들에게 자주 쓰이는 sd 1.5나 SDXL, Pony 체크포인트에서 사용 가능한 LoRA는 존재하였지만 noobai 모델용 LoRA는 찾을 수 없었다. 약 50여 장의 학습용 포로 사진을 활용한 noobai 모델 체크포인트용 LoRA 를 제작하기로 결정하였고, 그 생성과정을 소개한다.

[그림 77, 78] 게임 ‘리그오브 레전드’ 캐릭터 ‘포로poro’ 이미지




LoRA를 제작할 때 학습용 이미지(데이터셋)는 모델이 일관된 특징을 학습하고 일반화된 출력을 생성할 수 있도록 하기 위해 다음과 같은 특성을 갖추는 것이 좋다.

1. 일관된 스타일 또는 캐릭터
학습하려는 캐릭터나 스타일이 명확하게 드러나야 한다.

예: 같은 복장, 같은 헤어스타일, 동일한 색상 조합 등.
너무 다양한 복장/헤어/포즈가 섞이면 모델이 "특징"을 잡기 어렵다

2. 충분한 이미지 수
기본적으로 10~30장 이상이 권장됨 (동일 스타일/캐릭터 기준).

데이터가 적으면 과적합(overfitting)되거나 일반화 성능이 낮아질 수 있다.

3. 고해상도, 선명한 이미지

흐릿하거나 압축률이 높은 이미지는 학습 품질을 떨어뜨린다.
sd 1.5 모델용은 512 * 512, sdxl 계열 모델은 786 * 786 크기로 학습용 이미지를 미리 재단해 두는 것이 좋다.

4. 노이즈나 배경이 복잡하지 않을 것
너무 복잡한 배경은 캐릭터 자체 학습에 방해가 된다.

스타일, 그림체 로라를 제작하는 것이 아니라면, 가능한 단색 배경, 균일한 조명이 있는 이미지가 좋다.

5. 다양한 각도와 포즈 (적절히)
완전히 동일한 자세만 있으면 LoRA가 너무 제한적으로 작동할 수 있다.

단, 포즈가 지나치게 다양하면 오히려 모델이 혼란스러워하므로, 핵심은
"일관된 특징을 다양한 상황에서 학습시키는 것"

 6. 정확한 태깅 (캡션 작성)

학습용 이미지에는 텍스트 캡션(예: 1 girl, long hair, red eyes)이 txt 파일 형식으로 사진과 한쌍을 이루어야 한다.

이 텍스트를 통해 모델이 "어떤 단어에 어떤 이미지를 연결해야 하는지" 학습한다.
자동 태깅 도구(Danbooru tagger 등)를 활용하면 효율적.

이후 kohya_ss와 같은 LoRA 제작, 학습 툴킷을 사용하여 제작한다.




먼저 이미지 수집 단계에서는 Fatkun Batch Download Image 크롬 확장 프로그램을 사용하여 빠른 속도로 학습 후보군 포로 이미지를 크롤링 한다.

[그림 79, 80]  Fatkun Batch Download Image를 통한 이미지 크롤링

Fatkun Batch Download Image 크롬 확장 프로그램을 통해 현재 화면에 존재하는 전체 이미지를 탐지하여 다운 받을 수 있게 된다. ‘포로’ 캐릭터와 연관성이 없는 이미지는 제외하여 총 48장의 이미지를 학습용 이미지로 선택하였다.

다음 단계는 이미지 정리 및 태깅 작업이다. 인터넷에서 수집한 이미지들은 보통 무작위 숫자나 영어로 된 파일명을 가지고 있어, 이를 0001, 0002처럼 규칙적인 파일명으로 정리하는 과정이 필요하다. 또한, 이미지마다 태그 캡션이 담긴 .txt 파일도 따로 작성해주어야 한다. 하지만 이미지가 48장이나 되는 경우, 이를 하나하나 수작업으로 처리하기엔 비효율적이다.

이를 해결하기 위해, 파일명 일괄 변경 및 캡션 텍스트 자동 생성을 위한 파이썬 배치 스크립트를 제작하여 작업 시간을 크게 단축한다.

[그림 81]  이미지를 규칙적인 파일명으로 변환하는 파이썬 배치 파일 스크립트

이미지 파일을 저장해 놓은 디렉토리를 연결하여 해당 폴더에 존재하는 파일들을 정렬하고 0001.png, 0002.png 의 형식으로 파일 이름을 변경하는 스크립트를 사용하였다.

 

[그림 82]  불필요한 이미지 배경을 제거하는 파이썬 배치 파일 스크립트

이후 ‘포로’ 캐릭터를 학습하는데 불필요한 배경을 제거하는 rembg 모듈을 사용하여 흰색 배경으로 처리하여 png 형태로 저장하는 파이썬 스크립트를 사용하였다.

[그림 83]  자동 태깅 파이썬 배치 파일 스크립트


학습용 데이터가 될 준비가 완료된 이미지를 담은 파일 디렉토리를 자동 태깅 파이썬 배치 파일에 import 하여 각 이미지에 대한 캡션 .txt 파일도 생성을 마쳤다.

[그림 84]  이미지 이름 정렬, 배경 제거, 캡션 생성을 마친 학습용 이미지

[그림 85]  각각의 이미지 마다 생성된 텍스트 캡션

a white hamy with brown ears and big eyes, cute horns, dd, epic legends game icon, fluffy'', full image, he is very happy, large eyes and menacing smile, league of legends, poggers, poro, r/aww, sticker, symbolism, vertical wallpaper, very fat, very scary photo, white horns

자동 태깅 파이썬 배치 파일 스크립트의 해당 코드가 캡션 텍스트에 반드시 
"poro, league of legends" 태그가 포함되게 만든다.

common_tags = "poro, league of legends"
caption = caption + ", " + common_tags

즉, 이 LoRA를 사용하기 위한 ‘트리거 단어’가 "poro, league of legends" 된다.

만약 제작한 LoRA 파일을 사용하여 이미지를 생성할 때 positive CLIP 프롬프트에
해당 태그를 입력한다면, [그림 85]와 유사한, [그림 85]의 특징을 가진 이미지가 생성 될 것이다.

[그림 86]  kohya_ss 웹 UI 화면

kohya_ss 웹 UI에서 체크포인트, LoRA 학습률, 반복 수, batch size, epoch
(학습 로테이션. 생성할 모델 수)등 설정한 후 LoRA 제작을 시작한다.
epoch 값을 4로 설정하였기에, LoRA 적용의 강도가 서로 다른 4개의 체크포인트 모델이 결과적으로 생성된다.

[그림 86]  LoRA 생성 과정 현황 cmd 화면

cmd 화면 오른쪽에 보이는 avr_loss 값이 1을 넘어가지 않는 선에서 학습을 진행한다. avr_loss 값은 모델, LoRA 출력이 예상 이미지, 캡션과 얼마나 차이가 있는지를 나타내는 오차의 평균값으로 avr_loss가 1을 초과하면 학습 이미지에 과적합(overfitting)될 가능성이 높아져 학습을 중단해야 한다.

[그림 87]  생성된 LoRA 파일 저장

 저장된 LoRA 파일은 .safetenser 형식으로 저장되며, 곧바로 stable diffusion ComfyUI에서 사용할 수 있다. 

[그림 88. 89, 90]  생성된 포로 이미지

CLIP 프롬프트에서 ‘poro’(트리거 단어)를 입력하고 LoRA의 강도를 1.2으로 설정하여 생성한 포로 이미지이다.

캐릭터 LoRA이기에 당연히 다른 LoRA와의 합성도 가능하다. Pixar 스타일 LoRA의 강도를 1.0, 포로 캐릭터 LoRA의 강도를 1.2로 설정하여 픽사 스타일 포로 이미지를 생성하였다.

[그림 91]  PIxar LoRA와 합성되어 생성된 포로 이미지

 

5. 논의

Stable Diffusion을 활용하여 독창적인 이미지 생성 과정을 탐구하는 것이 목표였기에, 개념에 따라 고정적인 이미지가 있는 배경, 실사 인물, 물체에 대한 생성 예시는 거의 첨부하지 않았다. 대신 개성을 강조하고 재현보다는 창작에 중점을 둔 ‘캐릭터 디자인’을 AI 생성 이미지의 주요 주제로 삼았다. 

선행 연구 단계에서는 저작권 규제를 최대한 회피하기 위한 여섯 가지 전략을 제시하였으나, 실제 이미지 생성 과정에서 이 모든 기준을 완벽히 준수하는 것은 어려웠다. 탐구를 시작함과 동시에 Stable Diffusion과 ComfyUI에 대한 학습을 병행했기 때문에, 더 효율적이고 고품질의 이미지를 생성할 수 있는 다양한 방법이 있음에도 이를 적절히 적용하지 못한 미숙한 점이 있었다. 

이러한 여러 요인들이 겹쳐 상업적으로 바로 활용 가능한 이미지를 많이 생성하지는 못했으며, 특히 LoRA 제작 과정에서는 이미지 정제 작업이 미흡하여 고품질 결과물을 얻기 어려웠다. 스타일 LoRA를 제작하려는 시도도 있었지만, 저작권 규제가 있는 플랫폼에서 영상을 녹화해 학습에 사용하는 것은 불법일 뿐 아니라, 설령 녹화에 성공하더라도(실제로 크롤링을 통해 영상을 이미지 데이터셋으로 변환하는 작업까지는 수행했다) 




[그림 92, 93]  동영상 크롤링 크롬 확장 프로그램과 개발자 도구에서의 크롤링 시도

 

스타일 LoRA는 수백 장에서 수천 장에 이르는 이미지 정제 작업이 필수적이기 때문에, 실제 구현보다는 이론적 가능성에 머무를 수밖에 없었다. 여러 차례에 걸쳐 LoRA 제작을 시도했지만 만족스러운 결과물을 얻지 못했다. 그 원인은 학습 이미지의 수 부족, 해상도가 고정되지 않은 채 제각기인 이미지 배열 등에 있을 것으로 판단된다. 그럼에도 불구하고 이미지 생성 AI를 창조적인 도구로 활용할 수 있는 가능성은 이미지 제작 과정 전반에서 자주 발견되었으며, 이 기술과 접목할 수 있는 다양한 분야 중에서도 특히 활용도가 높아 보이는 몇 가지 주제를 선정해 보기도 했다.

  1. 1인 게임 개발 시, 디자인 작업 시간을 획기적으로 단축하는 데 활용

  2. AI 이미지 생성 API를 이용해 포트폴리오 웹사이트를 구상하고 제작할 때 활용

  3. Inpainting 기능을 통해 사진에 디테일이나 설정을 추가할 때 활용

  4. 캐릭터 디자인을 구상할 때, 하나의 레퍼런스를 바탕으로 다양한 변형 후보군을 생성할 때 활용 (AI 이미지 생성 도구를 활용하여 다양한 디자인 후보군을 빠르게 생성할 수 있어 선택의 폭이 넓어진다.)

  5. ControlNet을 이용해 인물이나 캐릭터 이미지를 원하는 자세로 조작한 뒤, 그림이나 모작 연습의 참고용으로 활용 (필요한 포즈나 소품을 자유롭게 조작할 수 있어 인터넷에서 모작 자료를 찾아 사용하는 것보다 훨씬 유용하다.)

그러나 이러한 다양한 분야에서 AI 이미지 생성 도구를 목적에 맞게 자유롭게 활용하려면, 아직은 Stable Diffusion에 대한 보다 깊이 있는 이해와 지속적인 학습이 필요해 보인다.

기존의 저작권이 존재하는 콘텐츠를 학습한 AI 모델을 상업적으로 활용하고자 할 때는 어떻게 해야 할까? 저작권이 있는 콘텐츠를 학습용 데이터로 사용하는 행위 자체가 현재 논란의 중심에 있으며, 이를 바탕으로 한 상업적 활용은 법적·윤리적으로 부담이 큰 상황이다.

이에 대해 개인적으로 고안해 본 하나의 해결 방안은 다음과 같다.
콘텐츠 제작자가 음악, 일러스트, 캐릭터 디자인, 그림체 등 하나의 창작물을 만들면, 그와 동시에 해당 콘텐츠를 학습한 AI 모델도 함께 제작하고 등록하는 것이다. 이 모델은 원저작자의 허가와 인증을 받은 공식적인 학습 모델로 간주되며, AI 모델 자체에도 저작권이 부여되는 시스템을 마련한다. 이렇게 하면, 다른 사람들이 해당 콘텐츠 기반 AI 모델을 사용하고자 할 때, 정식으로 라이선스를 구매하고 상업적으로도 자유롭게 활용할 수 있다. 제작자는 원본 콘텐츠뿐 아니라 그를 학습한 AI 모델에 대한 권리도 함께 보유하게 되므로, 더 큰 수익을 창출할 수 있다. 나아가, 전 세계의 다양한 콘텐츠에 이와 같은 학습 모델을 연결하고 배포하는 전용 플랫폼, 예컨대 ‘멜론’이나 ‘넷플릭스’처럼 대중적인 장을 구축한다면, AI 모델을 누구나 쉽게 접근하고 합법적으로 이용할 수 있을 것이다. 모델 사용에 따른 수익은 음원 수익료처럼 일정 비율이 제작자에게 돌아가는 구조로 설계하며, 각 AI 모델에는 NFT나 블록체인 기술을 적용해 학습 출처를 투명하게 증명하는 체계도 갖출 수 있다. 이 방안은 기술과 저작권 사이의 균형을 모색하는 데 있어 충분히 고민해볼 가치가 있는 새로운 접근 방식이라고 생각된다.

6. 결론

이번 탐구를 통해 Stable Diffusion을 활용한 AI 이미지 생성 방식이 창조적인 도구로서 충분히 유용한 가치를 지닌다는 결론을, 다양한 조건에서의 이미지 생성 실험을 통해 도출할 수 있었다.

ComfyUI에서는 모델이나 LoRA를 교체하거나, 캐릭터 생성에서 배경 생성으로 용도를 전환하거나, ControlNet이나 노이즈 수치를 조절할 때마다, 각 조건에 따라 이상적인 결과물을 얻기 위한 노드 설정이 달라졌다. 예를 들어, 캐릭터 이미지를 생성할 때는 Sampler의 노이즈 제거 수치를 20~23 정도로 설정하는 것이 적당하지만, 같은 모델이나 LoRA를 유지한 채 배경 이미지 생성으로 용도를 바꾼 경우에는 노이즈 제거 수치를 50에서 60 사이로 설정했을 때 가장 이상적인 결과를 얻을 수 있었다. 이처럼 이미지 생성 AI는 사용 목적에 따라 매우 유동적이고 유연하게 반응하는 도구이며, 이를 활용하는 아티스트는 이러한 특성을 충분히 인지하고 있어야 할 것으로 보인다. 프로그램에 대한 이해도가 높을수록, 이 유동성은 주제를 자유롭게 선택하고 창의적인 결과물을 만들어내는 데 큰 장점으로 작용할 수 있겠지만, 이해도가 부족하다면 이러한 유동성은 오히려 시행착오를 반복하게 만들고, 이미지 생성에 많은 시간과 노력을 소모하게 만드는 요인이 될 수 있다.

또한, 개념에 따라 고정적인 이미지가 존재하는 배경, 실사 인물, 실사 물체 등은 비교적 높은 창조성과 이미지 품질을 보여주는 반면, 완전히 새로운 창작이 요구되는 ‘캐릭터 디자인’의 경우 단순히 모델이나 LoRA를 조합하는 방식만으로는 구현이 어렵다는 점도 확인할 수 있었다. 그러나 이는 어디까지나 캐릭터 디자인의 ‘생성’이 어렵다는 것이며, 일단 대략적인 콘셉트 아트가 존재할 경우에는 포즈, 표정, 헤어스타일, 의상, 배경, 그림체 등 다양한 디자인 요소를 변경하거나 확장하는 데 있어 AI가 매우 유용하다는 사실을 발견할 수 있었다. 특히 이러한 부가적인 작업은 사람 손으로 반복해 수행하기 번거롭고 시간이 많이 소요되기 때문에, 이미지 생성 AI의 효율성과 유용성이 더욱 돋보인다.

정리하자면, 이미지 생성 AI는 기본적으로 학습한 레퍼런스를 바탕으로 이미지를 출력하기 때문에, 완전한 백지 상태에서 생성된 결과물은 본질적으로 독창적이라고 보기는 어렵다.
예를 들어, 아무런 조건도 주어지지 않은 상태에서 “남자 캐릭터가 서 있는 장면”을 생성하도록 요청하면, AI는 기존에 인간이 제작해 온 전형적인 남성 캐릭터 디자인의 틀을 따르게 될 가능성이 크다. 그 결과는 독창적이라기보다는 기존 이미지들의 평균적인 형태에 가까울 것이다. 이는 inpainting 기능을 사용할 때도 마찬가지다. 예를 들어, 담벼락이 있는 배경 이미지에 검은 까마귀들을 추가하고 싶다면, 단순히 까마귀를 생성하라는 프롬프트만으로는 원하는 결과를 얻기 어렵다. 까마귀가 들어갈 마스킹 위치에 어느 정도 ‘흔적’이 될만한 윤곽이나 얼룩 등을 미리 만들어 두지 않으면, AI는 까마귀를 어디에, 어떤 식으로 배치해야 할지 판단하기 어렵기 때문이다. 심한 경우, AI가 해당 요소가 배경과 어울리지 않는다고 판단해 프롬프트가 있음에도 불구하고 까마귀를 생성하지 않는 경우도 생긴다.

하지만, 인간이 캐릭터 디자인의 기본적인 방향성과 콘셉트를 제시해 준다면, 이미지 생성 AI는 그 맥락을 파악하고 적절한 요소를 추가하거나 변형하는 능력이 매우 뛰어나다. 물론 이러한 변형 과정에서도 AI가 학습한 기존의 이미지나 스타일이 다소 반영될 수 있겠지만, 그 결과물은 단순한 이미지 조합 이상의 창조적 변형이라 볼 수 있다. AI가 백지에서 포켓몬스터 캐릭터를 생성한 이미지와, 인간이 고안한 캐릭터에 AI가 포켓몬스터 콘셉트의 코스튬을 입히도록 유도해 생성한 이미지는, 이미지의 독창성에 대한 사람들의 인식에서 확연한 차이를 보일 것이다.

결국 이미지 생성 AI는 ‘무에서 유를 창조하는 도구’라기보다는, ‘기존 아이디어를 구체화하고 확장하는 데 탁월한 도구’에 더 가까우며, 그 창의성의 범위와 깊이는 인간의 능력에 따라 크게 달라지게 될 것으로 보인다.






7. 참고문헌 (5개 이상)_

1.Kwon, D. H. (2024). Analysis of prompt elements and use cases in image-generating AI: Focusing on Midjourney, Stable Diffusion, Firefly, DALL· E. Journal of Digital Contents Society, 25(2), 341-354.

2.한다은, 최다혜, & 오창훈. (2023). 이미지 생성형 AI 의 창작 과정 분석을 통한 사용자 경험 연구: 사용자의 창작 주체감을 중심으로. The Journal of the Convergence on Culture Technology (JCCT), 9(4), 667-679.

3.Caldwell, M. (2023). What Is an" Author"?-Copyright Authorship of AI Art through a Philosophical Lens. Hous. L. Rev., 61, 411.

4.Oppedal, N. M. Balancing Innovation and Copyrights: The Legal Framework for AI Training in the European Union.

5.김효정, 이호용. (2023). 이미지 생성형 AI의 학습데이터 이용과 원저작권자의 이해관계조정 - 저작물의 공정이용과 외부효과를 중심으로 -. 강원법학, 72, 29-56. 10.18215/kwlr.2023.72..29