Key Point
- Flamingo나 BLIP2 에 비해서 어떤 더 좋은 instruction을 만들고자 했는지 알아야 한다.
- 이 visual Instruction tuning 방법의 동기, 이전 연구와 비교했을 때 어떤 방법으로 처리한 것인지, 어떤 효과가 있는지
- 왜 이 구조를 사용했는지, 모델을 선택했는지 유의하면서 읽어볼 것
Summary
- 기존의 instruction tuning → visual instruction tuning을 제안
- Multimodal (language-image) instruction-following data using GPT-4
- LLaVA(Larage Language and Vision Assistant)
- CLIP(vision encoder) + Projection Layer(차원 연결) + VIcuna(LLM; Decoder-only) + visual instruction-tuning data로 visual instruction tuning
- LLaVA-Bench
- LLaVA + GPT-4와의 앙상블 → Science QA 멀티모달 추론 데이터셋으로 SOTA 달성
Abstract
- machine-generated instruction-following data를 사용한 LLM Instruction tuning은 새로운 과제에 대한 zero shot capabilites를 향상시키는 것으로 입증
- → 근데 multimodal field에서는 연구가 덜 되었다.
- GPT4를 이용해서 Multimodal (language-image) instruction-following data를 만들었다.
- LLaVA: Large Language and Vision Assistant→ end-to-end trained large multimodal model (구조는 2개인데, 학습 방식은 하나로 통합된..!)
- → Vision encoder와 LLM!
- → 위와 같은 방식으로 생성된 데이터로 instruction tuning을 한 model
- 실험을 위해 2개의 evaluation benchmarks를 구성→ GPT-4와 유사한 성능
- → 실험 결과, LLaVA는 multimodal 채팅 능력에서 뛰어난 성능
Introduction
- 최근 language-agumented foundation vision models 개발에 대한 관심이 급격히 증가
- Language는 오직 image content를 설명하는 용도로 사용(단순)
- → 그러나 대부분 1) 각 task마다 one single large vision model을 사용(별도 모델 사용)
- 한편 LLM은 Instruction을 잘 따르지만(resoning이 가능) text 전용 작업에 한정
✅ instruction tuning을 language-image multimodal space로 확장한 visual instruction-tuning을 제안
(a) Multimodal instruction-following data → Key point
- vision-language instruction-following data의 부족을 해결
- chatGPT/GPT4를 사용하여 기존의 image-text pair를 instruction-following format으로 변환하는 pipeline 설계
(b) Large multimodal models
- CLIP: open-set visual encoder (이미지 인코딩)
- Vicuna: LLaMa 기반의 open-source LLM(텍스트 생성)
- 이 둘을 연결해서 생성한 instuction vision-language data로 end-to-end로 fine-tuning(학습)
(c) Multimodal instruction-following benchmark
- 우리가 benchmark 만들었다~
(d) Open-source
Related work
- Multimodal Instruction-following Agents
- Computer Vision 분야에서 instruction-following agent 만드는 방법을 크게 2개의 class로 분류
(a) End-to-End trained model
→ 특정 specific research topic별로 개별적으로 탐구됨
→ EX)
vision-language navigation task & Habitat (자연어 지시 → 움직임)은
AI agent가 visual enviornment에서 목표를 달성하기 위해, natural language instructions에 따라 일련의 행동을 취하도록 요구하도록 학습
Image editing domain (e.g InstructPix2Pix)는
given input image와 written instruction을 받아서 image 수정되도록 학습
(b) A system that coordinates various model
→ LangChain이나 LLM을 이용하여 위와 같이 각각의 topic을 가지고 학습된 모델을 조정해서 하나의 작업으로 수행하게 만드는 시스템을 연구
EX) Visual ChatGPT, X-GPT, MM-REACT, VisProg, and ViperGPT
✅ 기존 연구는 모두 instruction-following agent를 구축한다는 같은 목표를 가지지만, 해당 논문은 여러 작업을 처리할 수 있는 end-to-end 학습 방식의 multi-modal model을 개발하는데 초점
→ 여러 task를 처리하기 위해서는 instruction tuning이 필요!
- Instruction tuning
- Natural Language processing에서 LLM이 natural language instructions을 따르고 real-word task를 수행할 수 있도록 LLM instruction-tuning에 대한 method가 연구가 활발→ 이는 LLM의 zero and few shot generalization abilities를 효과적으로 향상
- → EX) InstructGPT, ChatGPT, FLAN-T5, FLAN-PaLM, OPT-IML 같은 튜닝된 모델들이 등장
- NLP에서 CV쪽으로 아이디어 차용→ image classification과 같은 다른 Vision 연구 주제로 쓰임
- → foundation model을 이용한 teacher-student distillation idea
- Multimodal 모델의 등장: multimodal domain에서 GPT-3 급의 전환점.→ BLIP-2, FROMAGe, KOSMOS-1, PaLM-E 같은 모델들은 image-text pair로 학습된 멀티모달 모델들: 오픈소스 LLM LLaMA를 기반으로, OpenFlamingo, LLaMA-Adapter는 LLaMA가 multimodal LLM으로서 image 입력 기능이 추가되도록 시도된 사례!
- → LLaMA도 multimodal LLM으로서 시도
- : zero-shot task와 in-context-learning에서 강한 performance를 보였기 때문!
- → Flamingo
- Problem→ multimodal task들에서의 성능은 여전히 language-only task와 비교했을 때 떨어짐…<aside> 💡
- 일반 instruction tuning: (지시, 응답) 쌍만 있음
- 비전-언어 튜닝: (이미지, 지시, 응답) 삼중 구조 필요→ 모델은 지시를 받아도 어떻게 이미지 정보를 활용할지를 모름
- → 이걸 제대로 학습하지 않으면
- (Multi Modal에서도 resoning이 가능하지만!! text only 보다는 부족! )
- → 위의 모델들은 task transfer generalization performance(다양한 task 처리 가능)에서는 뛰어나지만 vision-language instruction data로 명시적으로 튜닝되지 않았다…
✅ 이 GAP을 줄이자!!!
즉 Multi Modal을 잘 처리하지만, 이걸 지시하는 tuning에 대해서는 잘 학습되어 있지 않다..
- QuestionA. Instruction tuning이 없어서, 단순히 image 설명 수준에서만 잘한다.일종의reasoning(추론) 능력을 키우는 과정
- A. 여기서 Instruction은 instruction을 해석하고 → 그에 맞는 작업을 판단(의도 파악) → 수행
- Q. MultiModal 처리는 잘하면서 왜 instruction은 못 해?
참고) visual instruction tuning은 visual prompt tuning과는 다르다.
→ Visual instruction tuning:
: 모델이 자연어 지시를 따를 수 있도록 능력을 향상시키는 학습 방식
→ Visual prompt tuning:
: 모델 전체를 튜닝하지 않고, 작은 파라미터만 조정해 효율적으로 적응시키는 방식(parameter-efficient tuning in model adaptation)
GPT-assisted Visual instruction Data Generation
- Instruction-following Data Example
- top-block : GPT에게 instruction을 생성하도록 주어지는 정보들
- captions, boxes
- bottom-block: GPT가 생성한 3가지의 response
- image는 prompt로 사용하지 않고 오직 caption과 box 정보만 보고 응답 생성
- top-block : GPT에게 instruction을 생성하도록 주어지는 정보들
- 왜 ChatGPT/GPT4를 multimodal instruction-following data collection으로 사용?
- 기존의 multimodal data(image-text pairs)는 양이 충분.
- 그러나 multimodal instruction following data는 사용할 수 있는 양이 제한
- → WHY? 사람이 직접 만들기엔 time-consuming과 less well-defined (기준 모호)문제
✅ 기존의 image-pair data를 바탕으로 GPT 사용
- Method
- 1차 입력 : Promptimage content를 설명하도록 assistant에게 지시하기 위한 question 집합 $X_q$를 생성해라!
- image $X_v$ , image에 대한 caption $X_c$이 있을 때,
- 1차 결과 : image-text pair → instruction-following version Method
- 즉 Xq와 Xq로 질문이 주어지면 Xc를 응답하도록 mapping
→ 한계) instruction과 response에서 다양성 부족, 깊은 resoning 부족
→ 개선 방법) GPT-4/ChatGPT를 strong teacher로 사용하여 visual content를 포함하도록 생성
- 2차 Prompt 내용
- 2가지 representaion (image encoding 하기 위함)
- Captions
- 다양한 관점에서 장면을 설명
- Bounding Box(객체 이름, 위치)로 구성
- 장면에서 객체의 위치를 설명하기 위함
- 3가지 type의 instruction-following data각 유형에 대해서 먼저 몇 가지 예시들을 설계함
- Conversation질문 내용은 이미지의 visual content에 대한 것
- object types, objects 개수, object actions, object locations, object간의 상대적 위치)
- image에 대해서 assistant와 질문하는 사람 사이의 대화
- Detailed description각 이미지에 대해서, 질문 리스트 중 sample 하나를 GPT4한테 물어본 것
- image에 관한 풍부하고 정교한 설명을 포함하기 위해, 의도가 담긴 질문 리스트를 만들었음.
- Complex reasoning답변에는 일반적으로 엄격한 논리를 따르는 단계별 추론 프로세스가 필요함.
- 위의 2가지 type의 질문들은 visual content에 집중한다, 이를 기반으로 in-depth resoning questions을 생성
- 59K : conversations,
- 23K : detail한 description
- 77K : complex resoning
- in-context-learning의 시드 예제로 사용
- COCO images를 사용
Visual Instruction Tuning
- Architecture
- goal
- pre-trained LLM과 visual model의 성능을 효과적으로 활용하는 것
- component
-
- Language Model
- → Vicuna, 공식적으로 사용 가능한 checkpoint에서 언어 task에서 최고의 instrunction following 능력을 가짐
- Visual Encoder→ visual feature $Z_v = g(X_v)$ 를 제공
- → pre-trained CLIP visual encoder ViT-L/14
- Training
이미지에서 feature alignment를 얻기 위한 사전 학습
-
- step 1 : Pre-training for Feature Alignment여기서 $W$는 Connector의 역할을 함.
- projection matrix $W$를 학습시킴
- step 2 : Fine-tuning End-to-End
제안된 질의응답 데이터로 재학습
GPT를 활용해 얻은 instructino-following dataset
-
- Vlm
LM ← vision feture와 text feature를 함께
이때 projection matrix를 통해서 이미지 embedding vector를 얻는다.
VIsion에서는 Resoning이 떨어짐….
'Paper' 카테고리의 다른 글
| What are the limitations of current Vision-Language Models? (0) | 2025.10.05 |
|---|---|
| Qwen2.5-VL Technical Report [수정중] (0) | 2025.10.05 |