반응형 disenvisioner1 [1페이지 논문읽기] DisEnVisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation 해당 논문은 인풋으로 입력되는 subject를 이용해 원하는 이미지를 생성하는 연구이다. 저자들은 DisEnVisioner 라는 아키텍쳐를 제시해 별도의 tuning 과정 없이 단 한장의 이미지 만으로 아래와 같은 성능을 보인다고 한다. 그러면, 저자들이 어떤 문제점을 어떠한 방법으로 해결했는지 알아보자. 기존 연구의 한계점기존의 유사한 연구는 fine-tuning을 하는 방법들과 하지 않는 방법 크게 두 가지 방법으로 연구가 진행되고 있으나, 두 방법 모두 subject의 속성들을 제대로 해석해서 그려내는데 어려움을 겪고 있다. 이로 인해 subject의 디테일을 제대로 그려내지 못하거나, 프롬프트대로 생성이 안되게 된다. 아래 그림에서 맨 오른쪽 column을 제외하고는 전부 1) 원본이랑 비슷하.. 2024. 11. 9. 이전 1 다음