본문 바로가기
반응형

1페이지 논문읽기7

[1페이지 논문읽기] ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs Style transfer task, 즉 이미지를 원하는 그림체 또는 색감으로 변환하는 문제를 해결하고자 한 논문이다. 어떠한 관점에서 문제를 바라보고 있고, 어떤 방법으로 task를 해결하고 있는지 알아보자.   아이디어Personalization task에 LoRA를 이용한 fine-tuning이 많이 사용되는데, 저자들은 LoRA를 이용해 style에 대한 정보를 학습할 수 있다면, 이를 style transfer task에 사용할 수 있다는 점에 착안했다.특히, 아래 2가지 observation에서 영감을 얻었다.1. LoRA finet-tuning을 통해 update된 matrix는 sparse하다.LoRA를 이용해 fine-tuning을 하게 되면, 기존의 weight 이외에 delta wei.. 2024. 11. 19.
[1페이지 논문읽기] Implicit Style-Content Separation using B-LoRA 한 장의 그림이나 사진을 원하는 스타일로 변환하는 태스크를 해결하고자 한 논문이다. 기존 연구들과 비교했을 때, 꽤 좋은 결과를 보여주고 있는데, 어떤 방법으로 문제를 해결했는지 알아보자.  기존 연구의 한계점기존 연구, 특히 기존에 가장 좋은 성능을 보이는 연구는 ZipLoRA 이다. ZipLoRA의 경우, 스타일과 content를 한가지 모델에서 학습시킨 다음, inference 때 사용하는 방법으로 이미지를 그려냈다.저자들은 이 때문에 style 변화와 content preserving 간의 trade-off 가 있다고 보았다. 아이디어SDXL 을 파운데이션 모델로 활용했는데, SDXL의 unet layer는 총 11개의 트랜스포머 블럭으로 구성되어 있다. 저자들은 이 중 2,4번째 블럭은 cont.. 2024. 11. 17.
[1페이지 논문읽기] DisEnVisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation 해당 논문은 인풋으로 입력되는 subject를 이용해 원하는 이미지를 생성하는 연구이다. 저자들은 DisEnVisioner 라는 아키텍쳐를 제시해 별도의 tuning 과정 없이 단 한장의 이미지 만으로 아래와 같은 성능을 보인다고 한다. 그러면, 저자들이 어떤 문제점을 어떠한 방법으로 해결했는지 알아보자.   기존 연구의 한계점기존의 유사한 연구는 fine-tuning을 하는 방법들과 하지 않는 방법 크게 두 가지 방법으로 연구가 진행되고 있으나, 두 방법 모두 subject의 속성들을 제대로 해석해서 그려내는데 어려움을 겪고 있다. 이로 인해 subject의 디테일을 제대로 그려내지 못하거나, 프롬프트대로 생성이 안되게 된다. 아래 그림에서 맨 오른쪽 column을 제외하고는 전부 1) 원본이랑 비슷하.. 2024. 11. 9.
[1페이지 논문읽기] FreeCustom: Tuning-Free Customized Image Generationfor Multi-Concept Composition 해당 논문은 multi-concept에서의 이미지 생성에 대한 연구이다. 예를 들어, 아래 그림에서 보는 것과 같이, 강아지와 선글라스, 모자의 이미지를 가지고 각각 합성된 이미지를 그려내는 등의 task를 하도록 하는 연구이다.특히, 이러한 task를 tuning-free 방법으로 해결했는데, 이 과정에서 어떠한 문제점을 어떻게 해결했고, 어떤 한계점을 가지고 있는지를 알아보겠다. 기존 연구의 한계점Custom concept 을 이용해 이미지를 생성하는 연구는 크게 아래의 두가지 방법으로 진행되어 왔다. 컨셉 이미지를 가지고 fine-tuning하는 tranining 기반의 방법과 거대한 이미지-텍스트 데이터셋에서 task에 맞게 다시 학습한 모델을 사용하는 tailored model 기반의 방법들이 .. 2024. 10. 23.