한 장의 그림이나 사진을 원하는 스타일로 변환하는 태스크를 해결하고자 한 논문이다. 기존 연구들과 비교했을 때, 꽤 좋은 결과를 보여주고 있는데, 어떤 방법으로 문제를 해결했는지 알아보자.
기존 연구의 한계점
기존 연구, 특히 기존에 가장 좋은 성능을 보이는 연구는 ZipLoRA 이다. ZipLoRA의 경우, 스타일과 content를 한가지 모델에서 학습시킨 다음, inference 때 사용하는 방법으로 이미지를 그려냈다.
저자들은 이 때문에 style 변화와 content preserving 간의 trade-off 가 있다고 보았다.
아이디어
SDXL 을 파운데이션 모델로 활용했는데, SDXL의 unet layer는 총 11개의 트랜스포머 블럭으로 구성되어 있다. 저자들은 이 중 2,4번째 블럭은 content를 담당하고, 5번째 블럭은 스타일을 담당하는데 많은 기여를 한다는 점을 관찰했고, 해당 블럭에서의 lora weight를 optimze하는 방법을 제안한다.
특히, 저자들은 이미지에서 style을 뽑아내기보다는 style 과 content에 해당하는 lora weight를 동시에 배우는 방법을 선택해 style과 contetn의 분리를 이루어 냈다.
또한, 해당 블럭에서 lora weight를 optimze해두면, 그러한 lora weight를 plug-in 방식으로 어디든 가져다 붙일 수 있기 때문에 inference time 측면에서 시간을 아낄 수도 있게 된다.
한계점
저자들이 논문에서 밝혔는데, color의 경우 일반적으로 style lora에서 학습되지만, 강아지의 경우 color 자체가 content의 identity를 나타낼 수 있다. 이 부분에 대한 future work 필요할 것 같다.
Style 이라는 개념의 모호성 때문일 것 같은데, 그림체와 색깔, 톤 앤 매너 이러한 것들을 disentangle 하는 것이 가능할지에 대한 의문이 든다.