본문 바로가기
반응형

전체 글93

[1페이지 논문읽기] HybridBooth: Hybrid Prompt Inversion for Efficient Subject-Driven Generation 기존 optimization-based 튜닝 방법과 direct-regression 방법의 장점을 합친 HybridBooth 아키텍처를 제안한다. 이 논문에서 저자들은 word embedding을 잘 refine해서 subject-driven generation task를 해결했다고 주장한다. 어떠한 아이디어로 어떻게 문제를 해결했는지 알아보겠다. 기존 연구의 한계점기존 연구는 크게 보면, 여러장의 이미지를 입력으로 받아 fine-tuning 하는 optimization-based 튜닝 방법과 다량의 데이터에서 pretrained된 모델과 이미지 한장을 이용해 이미지를 그려내는 direct-regression 방법으로 나눌 수 있는데, 각각 정확성과 속도의 장점을 가지고 있지만, 역시 속도와 정확성이라는.. 2024. 11. 11.
[1페이지 논문읽기] FaceChain-FACT: Face Adapter with Decoupled Training for Identity-preserved Personalization 이 논문은 제목에서 보여지는 것처럼 특정인의 얼굴을 활용해 원하는 이미지를 그려내는 personalization task를 풀고 있다. 기존 연구의 어떤 문제를 어떻게 해결했는지를 알아보겠다.    기존 연구의 문제점 기존에도 ip-adapter 또는 photomaker, instantID 같이 얼굴 이미지를 활용해 원하는 이미지를 그려내는 연구는 많이 있었다. 하지만, 저자들은 이들 연구들이 입력 이미지를 결과 이미지에 어떻게 합성하는지에 대해서만 고민했기 때문에 원본 이미지의 머리방향, 스타일, 포즈 같은 다른 property들이 decouple 되지 않았다고 한다. 이에 저자들은 이를 decouple하는데 초점을 맞춘 FACT 아키텍처를 제안한다. 아이디어  크게 IMM (Identity Mergi.. 2024. 11. 10.
[1페이지 논문읽기] DisEnVisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation 해당 논문은 인풋으로 입력되는 subject를 이용해 원하는 이미지를 생성하는 연구이다. 저자들은 DisEnVisioner 라는 아키텍쳐를 제시해 별도의 tuning 과정 없이 단 한장의 이미지 만으로 아래와 같은 성능을 보인다고 한다. 그러면, 저자들이 어떤 문제점을 어떠한 방법으로 해결했는지 알아보자.   기존 연구의 한계점기존의 유사한 연구는 fine-tuning을 하는 방법들과 하지 않는 방법 크게 두 가지 방법으로 연구가 진행되고 있으나, 두 방법 모두 subject의 속성들을 제대로 해석해서 그려내는데 어려움을 겪고 있다. 이로 인해 subject의 디테일을 제대로 그려내지 못하거나, 프롬프트대로 생성이 안되게 된다. 아래 그림에서 맨 오른쪽 column을 제외하고는 전부 1) 원본이랑 비슷하.. 2024. 11. 9.
Hugging Face library와 Flux를 이용한 AI 이미지 생성 실습 Flux는 AI 기반 이미지 생성에서 일관성과 스타일 유지에 중점을 둔 새로운 도구로, 생성형 AI와 창작 분야에서 큰 관심을 받고 있습니다. 특히 Hugging Face의 Diffusers 라이브러리와 결합되면서 Flux는 높은 품질의 이미지를 생성하고, 사용자가 원하는 스타일을 지속적으로 유지할 수 있는 강력한 기능을 제공합니다. 이 글에서는 Flux의 개념과 기능, 그리고 Hugging Face의 Diffusers에 적용하는 방법을 알아보고, Flux의 주요 활용 방안을 제시하겠습니다. Flux와 관련해 보다 자세한 내용을 알고싶으시면, 아래 글을 참고해주세요.Flux 이해하기: Stable Diffusion의 이미지 생성 기술 깊이 알아보기 Flux 이해하기: Stable Diffusion의 이미.. 2024. 11. 8.