Subject-driven image generation task를 풀고 있는 연구이다. 특히 contrastive learning을 이용해서 subject간의 또한, subject 내의 consistency 문제를 해결했다. 구체적으로 어떤 방법 어떤 문제를 해결했는지 알아보겠다.
기존 연구의 한계점
많은 기존 연구들이 주장하는 것처럼, 이 논문 역시 기존 연구들의 detail과 controllability, 즉 subject의 detail을 얼마나 살려주는지와 text prompt대로 얼마나 잘 생성되는지 사이의 trade off를 지적하고 있다. 저자들은 그 원인을 subject의 identity와 subject와는 관계없는 것들 (view, 포즈, 배경 등)이 disentangle되지 않아 그렇다고 얘기하며, 이를 위해 subject의 identity attribute와 subject들 간의 inter-distnctiveness를 함께 학습하는 CustomContrast 방법을 제시한다.
아이디어
저자들은 이를 constrastive learning과 멀티모달 feature를 이용해 해결하고자 했다. Multilevel의 contrastive learning을 이용해 high-level부터 low-level 까지의 feature를 추출했는데, contrastive learning이 효과적으로 되도록 하기 위해 multimodal feature를 inject 하는 방식을 사용했다.
Multilevel contrastive learning
두 단계로 contrastive learning을 적용해 positive sample간의 거리를 가깝게, negative sample간의 거리를 멀어지도록 학습했는데, 크게 CSCL (Crossmodal Semantic Contrastive Learning)과 MACL (Multiscale Appearance Contrastive Learning) 으로 나누어진다.
CSCL 단계에서는 reference 이미지의 text query와 visual query를 이용해 각각의 embedding이 align 되도록 학습하고, MACL은 subject의 identity와 관계없는 것들 (배경 등)을 분리한다. 이 때, negative sample은 view, 위치, 크기 등을 이용한다.
결론 및 느낀점
Subject-driven image editing task는 subject와 prompt, embedding 사이의 관계에 집중하는 연구가 많았는데, contrastive learning을 적용해 subject의 새로운 차원의 embedding space를 구성한 아이디어가 흥미로웠다.