본문 바로가기
반응형

생성형 AI4

[1페이지 논문읽기] SPDiffusion: Semantic Protection Diffusion for Multi-concept Text-to-image Generation 기존의 foundation 모델들은 multi object를 생성하는데 어려움을 겪고 있다. 예를 들어, 아래 그림에서 보듯, "초록색 옷을 입고 있는 토끼와 빨간 모자를 쓴 여우"를 그리라고 하면, 토끼만 두 마리를 그리거나 둘 다 초록색 옷을 입고 있는 이미지를 그려준다.이러한 문제를 해결해 멀티 object의 생성을 보다 잘 하게 해주는 연구가 있어 소개해본다.  기존 연구의 문제점서두에서 밝힌 것처럼, 기존 연구들은 object 간의 속성들이 섞이거나 제대로 그려지지 않는 "attribute confusion" 이슈가 있고, 이를 해결하기 위한 다양한 시도가 있었다.몇몇 연구들에서는 inference 때 latent representation을 optimize해서 텍스트와 이미지간의 연관성을 강제.. 2024. 11. 22.
[1페이지 논문읽기] An Image is Worth Multiple Words: Multi-attribute Inversion for Constrained Text-to-Image Synthesis 원본 이미지가 있다면, AI는 원본이미지처럼 새로운 그림을 그릴 수 있을까? 원본이미지"처럼" 이라는 뜻은 무엇일까? 색감이 비슷하게? 비슷한 스타일로? 비슷한 오브제가?  사람도 답하기 힘든 이러한 질문에 답하듯 그림을 그려주는 연구가 있다. 2023년 Adobe 에서 발표한 An Image is Worth Multiple Words: Multi-ttribute Inversion for Constrained Text-to-Image Synthesis 논문인데, 어떤 문제를 어떤 방법으로 해결하는지 알아보자.   기존 연구의 한계점Stable diffusion 기반의 이미지 personalization 연구들이 디테일한 컨트롤이 어렵다는 한계점을 가지고 있어, controllability를 강화하는 방법.. 2024. 11. 20.
[1페이지 논문읽기] ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs Style transfer task, 즉 이미지를 원하는 그림체 또는 색감으로 변환하는 문제를 해결하고자 한 논문이다. 어떠한 관점에서 문제를 바라보고 있고, 어떤 방법으로 task를 해결하고 있는지 알아보자.   아이디어Personalization task에 LoRA를 이용한 fine-tuning이 많이 사용되는데, 저자들은 LoRA를 이용해 style에 대한 정보를 학습할 수 있다면, 이를 style transfer task에 사용할 수 있다는 점에 착안했다.특히, 아래 2가지 observation에서 영감을 얻었다.1. LoRA finet-tuning을 통해 update된 matrix는 sparse하다.LoRA를 이용해 fine-tuning을 하게 되면, 기존의 weight 이외에 delta wei.. 2024. 11. 19.
[1페이지 논문읽기] DisEnVisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation 해당 논문은 인풋으로 입력되는 subject를 이용해 원하는 이미지를 생성하는 연구이다. 저자들은 DisEnVisioner 라는 아키텍쳐를 제시해 별도의 tuning 과정 없이 단 한장의 이미지 만으로 아래와 같은 성능을 보인다고 한다. 그러면, 저자들이 어떤 문제점을 어떠한 방법으로 해결했는지 알아보자.   기존 연구의 한계점기존의 유사한 연구는 fine-tuning을 하는 방법들과 하지 않는 방법 크게 두 가지 방법으로 연구가 진행되고 있으나, 두 방법 모두 subject의 속성들을 제대로 해석해서 그려내는데 어려움을 겪고 있다. 이로 인해 subject의 디테일을 제대로 그려내지 못하거나, 프롬프트대로 생성이 안되게 된다. 아래 그림에서 맨 오른쪽 column을 제외하고는 전부 1) 원본이랑 비슷하.. 2024. 11. 9.