본문 바로가기
1페이지 논문읽기

[1페이지 논문읽기] Implicit Style-Content Separation using B-LoRA

by Ricolacola 2024. 11. 17.
반응형

한 장의 그림이나 사진을 원하는 스타일로 변환하는 태스크를 해결하고자 한 논문이다. 기존 연구들과 비교했을 때, 꽤 좋은 결과를 보여주고 있는데, 어떤 방법으로 문제를 해결했는지 알아보자.

 

B-LoRA

 

기존 연구의 한계점

기존 연구, 특히 기존에 가장 좋은 성능을 보이는 연구는 ZipLoRA 이다. ZipLoRA의 경우, 스타일과 content를 한가지 모델에서 학습시킨 다음, inference 때 사용하는 방법으로 이미지를 그려냈다.

저자들은 이 때문에 style 변화와 content preserving 간의 trade-off 가 있다고 보았다.

 

아이디어

SDXL 을 파운데이션 모델로 활용했는데, SDXL의 unet layer는 총 11개의 트랜스포머 블럭으로 구성되어 있다. 저자들은 이 중 2,4번째 블럭은 content를 담당하고, 5번째 블럭은 스타일을 담당하는데 많은 기여를 한다는 점을 관찰했고, 해당 블럭에서의 lora weight를 optimze하는 방법을 제안한다.

 

특히, 저자들은 이미지에서 style을 뽑아내기보다는 style 과 content에 해당하는 lora weight를 동시에 배우는 방법을 선택해 style과 contetn의 분리를 이루어 냈다.

 

또한, 해당 블럭에서 lora weight를 optimze해두면, 그러한 lora weight를 plug-in 방식으로 어디든 가져다 붙일 수 있기 때문에 inference time 측면에서 시간을 아낄 수도 있게 된다.

 

한계점

저자들이 논문에서 밝혔는데, color의 경우 일반적으로 style lora에서 학습되지만, 강아지의 경우 color 자체가 content의 identity를 나타낼 수 있다. 이 부분에 대한 future work 필요할 것 같다.

Style 이라는 개념의 모호성 때문일 것 같은데, 그림체와 색깔, 톤 앤 매너 이러한 것들을 disentangle 하는 것이 가능할지에 대한 의문이 든다.