본문 바로가기
반응형

전체 글94

[1페이지 논문읽기] An Image is Worth Multiple Words: Multi-attribute Inversion for Constrained Text-to-Image Synthesis 원본 이미지가 있다면, AI는 원본이미지처럼 새로운 그림을 그릴 수 있을까? 원본이미지"처럼" 이라는 뜻은 무엇일까? 색감이 비슷하게? 비슷한 스타일로? 비슷한 오브제가?  사람도 답하기 힘든 이러한 질문에 답하듯 그림을 그려주는 연구가 있다. 2023년 Adobe 에서 발표한 An Image is Worth Multiple Words: Multi-ttribute Inversion for Constrained Text-to-Image Synthesis 논문인데, 어떤 문제를 어떤 방법으로 해결하는지 알아보자.   기존 연구의 한계점Stable diffusion 기반의 이미지 personalization 연구들이 디테일한 컨트롤이 어렵다는 한계점을 가지고 있어, controllability를 강화하는 방법.. 2024. 11. 20.
[1페이지 논문읽기] ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs Style transfer task, 즉 이미지를 원하는 그림체 또는 색감으로 변환하는 문제를 해결하고자 한 논문이다. 어떠한 관점에서 문제를 바라보고 있고, 어떤 방법으로 task를 해결하고 있는지 알아보자.   아이디어Personalization task에 LoRA를 이용한 fine-tuning이 많이 사용되는데, 저자들은 LoRA를 이용해 style에 대한 정보를 학습할 수 있다면, 이를 style transfer task에 사용할 수 있다는 점에 착안했다.특히, 아래 2가지 observation에서 영감을 얻었다.1. LoRA finet-tuning을 통해 update된 matrix는 sparse하다.LoRA를 이용해 fine-tuning을 하게 되면, 기존의 weight 이외에 delta wei.. 2024. 11. 19.
중앙집중화된 AI의 위험성 인공지능(AI)의 발전은 현대 사회에 혁신적인 변화를 가져왔지만, 중앙집중화된 AI 시스템의 위험성에 대한 우려도 커지고 있습니다. 특정 기업이나 기관이 AI 기술을 독점할 경우, 권력의 집중, 투명성 부족, 편향성 증가 등 다양한 문제가 발생할 수 있습니다. 이러한 위험을 완화하기 위해서는 AI의 분산화와 민주화를 촉진하는 전략이 필요합니다.권력의 집중: 소수의 기업이 AI 기술을 독점하면, 이들은 막대한 데이터와 연산 자원을 보유하게 되어 시장에서의 지배력을 강화할 수 있습니다. 이는 경쟁을 저해하고 혁신을 방해할 수 있습니다.투명성 부족: 중앙집중화된 AI 시스템은 그 작동 방식이 공개되지 않는 경우가 많아, 사용자들은 AI의 결정 과정이나 데이터 처리 방식을 이해하기 어렵습니다. 이는 신뢰성 문제.. 2024. 11. 18.
[1페이지 논문읽기] Implicit Style-Content Separation using B-LoRA 한 장의 그림이나 사진을 원하는 스타일로 변환하는 태스크를 해결하고자 한 논문이다. 기존 연구들과 비교했을 때, 꽤 좋은 결과를 보여주고 있는데, 어떤 방법으로 문제를 해결했는지 알아보자.  기존 연구의 한계점기존 연구, 특히 기존에 가장 좋은 성능을 보이는 연구는 ZipLoRA 이다. ZipLoRA의 경우, 스타일과 content를 한가지 모델에서 학습시킨 다음, inference 때 사용하는 방법으로 이미지를 그려냈다.저자들은 이 때문에 style 변화와 content preserving 간의 trade-off 가 있다고 보았다. 아이디어SDXL 을 파운데이션 모델로 활용했는데, SDXL의 unet layer는 총 11개의 트랜스포머 블럭으로 구성되어 있다. 저자들은 이 중 2,4번째 블럭은 cont.. 2024. 11. 17.