본문 바로가기

AI & Big Data/Image

[AI Image] 메타코드M '생성형 AI 입문 완성강의ㅣ스테이블 디퓨전 프로젝트 실습 + 프롬프트 엔지니어링 Skills' 강의 후기 #5 - 생성AI 실습 (Dreambooth와 LoRA 차이점)

728x90
반응형

  지난 두 강의에서 Dreambooth와 LoRA를 써서 모델을 만들었고, 이 모델을 활용해 이미지를 생성해보는 것까지 실습을 마쳤다. 지난 수업에서 살짝 언급되긴 했지만 이번 포스트에서는 Dreambooth와 LoRA의 차이점에 대해 짚어보고자 한다. 즉, 개념을 다루는 글이라 할 수 있겠다. 실습이 없어 재미없을 수도 있으나 기초를 닦는다고 생각하고 최대한 상세히 정리할 것이다.

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

Index

     

    3강. 생성AI 실습

    Dreambooth와 LoRA의 차이점

      Dreambooth와 LoRA 실습 강의에서 딸기우유를 사례로 들은 적이 있다. Dreambooth는 딸기 (학습 이미지)를 믹서 (드림부스)에 넣어 우유 (AI)와 함께 갈아서 딸기 우유를 만드는 것이고, LoRA는 우유에 딸기 시럽 (LoRA)을 넣은 것이라는 설명이었다. 정리하자면, 전자는 직접 이미지를 넣어 가공하고, 후자는 기완성된 일종의 필터를 넣어 이미지를 만들어낸다는 차이가 있다는 것이다.

      위의 비유로 이해하기 어렵다고 생각하기에 보다 자세한 설명을 덧붙인다. Dreambooth는 다음의 특성을 지닌다. 

    • 이미 학습된 모델에 새로운 개념을 가미하는 방법.
    • 모델 전체의 가중치를 미세 조정.
    • 모델 전체를 조작하므로 새로운 체크포인가 생성됨.
    • 1~7GB 정도의 용량을 차지.
    • 대상의 시각적 특징에 대한 높은 충실도, 몇 장의 이미지로 파인튜닝을 함과 동시에 기존 모델의 지식 보존.

    Dreambooth 개념 (강의 pdf)

      [v]는 지난 강의에서 부여했던 트리거 네임 (kongki)으로 보면 된다. dog라는 일반 명사로 분류된 이미지와 특별한 식별자를 붙인 이미지를 더불어 학습시켜 보다 개인화된 모델을 만들 수 있다는 것이다. 

      LoRA에 대한 설명으로 넘어가도록 하자. 

    • 가장 중요한 프롬프트 파트와 이미지가 만나는 부분을 수정하므로 작은 변화로 큰 효과를 거둘 수 있음.
    • 수정된 부분만 별도의 파일로 저장하고, 체크포인트 파일과 같이 써야 함.
    • 파일 사이즈는 2~200MB
    • 큰 행렬을 행렬곱의 개념을 사용해 최소한의 크기를 가지도록 작은 두 개의 하위 행렬로 분해.

    LoRA 이론적 개념

     전체 내용을 간략히 요약하자면 다음과 같다.

    • Dreambooth
      • 장점: 학습 시 퀄리티 우수. / 다수의 유저가 사용하여 정보 획득이 용이.
      • 단점: 학습 시 대용량 모델이 요구됨. / Vram이 많이 필요 (요구하는 자원량이 큼). / 학습 데이터와 학습 시간이 많이 필요.
    • LoRA  
      • 장점: 용량이 작은 플러그인 형태의 모델 사용 가능. / 학습 필요 데이터가 적음 / 정보 획득 용이.
      • 단점: 퀄리티의 한계로 여러 모델의 병용이 필요할 수 있음.
    • Text Inversion (ex. 7 negative words)
      • 장점: 인물·스타일별 1~100KB 정도 플러그인 모델 사용 가능 
      • 단점: 정보의 부족 (연구 사장) / 학습 난이도 높음 / 퀄리티 낮음. 
    • Hyper Network 
      • 장점: 얼굴, 손 등 특정 신체 부위의 표현에 강점.
      • 단점: 학습 난이도 높음.

     

    728x90
    반응형