KeyPoint
- pre-training 과 fine-tuning 을 어떤 방식으로 했는가?
- training 시 어디까지 freeze 했는가?→ 그리고 그 phase에서 무엇을 학습하고자 했는가?
- Qwen-VL의 목적⇒ LLM이 잘 학습된 상태에 Vision의 능력을 학습시켜야 하는데 본래 LLM의 성능을 잃지 않기 위함.
- ⇒ catastrophic forgetting (파멸적 망각)
- : Qwen은 기존의 잘 학습된 LLM이 존재. MultiModal LLM으로 확장하기 위해서는
Summary
- visual encoder에서 window attention을 구현→ local attention만 보겠다!
- → resoultion 손실 없이 연산 효율 향상
- → inference efficiency을 최적화
- dynamic FPS sampling 및 MRoPE 확장→ 다양한 sampling rate들 가운데 video understanding이 가능하게 한다.
- → temproal domain에서의 MRoPE를 upgrade :Absolute time encoding
- → temproal dimension에서 dynamic resolution을 확장한 것
- pre-training과 supervised fine-tuning에 대해서 high-quality data를 수집
- → 더 나아가 1.2 trillion token에서 4.1 trilllion token으로 pre-training corpus를 scaling한다
Q. pre-training 과 fine-tuning 을 어떤 방식으로 했는가?
어디까지 freeze 했는지 학습했는가?
왜 → 기존의 Qwen LLM이 잘 학습된 상태에 Vision의 능력을 학습시켜야 하는데 본래 LLM의 성능을 잃지 않기 위함.
VLM
- By seamlessly integrating visual perception with natural language processing, these advanced models are fundamentally reshaping how machines interpret and analyze complex information across diverse domains
- Multi-modal LLM 들 잘하긴 하는데, 최고 성능은 못 내고 있음.
- 이때 중요한 점은 아주 정밀한 시각적 인식 능력이 기반이 되어야 다른 작업도 잘 수행된다
- architectural design, visual input processing, data curation(수집)에서 많은 진전이 있음.
- architectural design
- Alayrac et al., 2022; Li et al., 2022a; 2023b; Liu et al., 2023b;a; Wang et al., 2024i; Zhang et al., 2024b; Wang et al., 2023 이 연구들을 통해서 현재의 LVLM model의 구조가 만들어짐
- 전형적인 구조
- 이미지의 detail한 작업도 중요한 주제로 화두
- Omni, MOE가 주요 LVLM의 구조로 뜨고 있음.
- cross-modal projector: visual content와 text content를 연결해 주는 다리 역할
- visual input processing
- visual encoder와 resolution scaling(해상도 조정)에서의 발전은 visual understanding의 품질 향상에 큰 역할을 함
- data curation
- 다양하고 고품질의 data를 수집하고 정제하는 것은 LVLM의 학습에 필수
- architectural design
- bottleneckslimited contextual understandinginconsistent performance across varied sequence length
- poor fine-grained visual perception
- computational complexity
Introduce to Qwen2.5-VL
- 다양한 benchmarks에 top-tier에 가까운 source model로서 달성
- contribution
- inference efficiency을 최적화 하기 위한 visual encoder에서 window attention을 구현
- dynamic FPS(Frame Per Second) sampling (temproal dimention에서 dynamic resolution을 확장한 것?)
- 다양한 sampling rate들 가운데 video understanding이 가능하게 한다.
- 절대적 시각에서 aligning함으로써 temproal domain에서의 MropE를 업그레드한다? temporal domin에서 MRoPE를 업그레이드 한다.
- pre-training과 supervised fine-tuning에 대해서 high-quality data를 수집, 더 나아가 1.2 trillion token에서 4.1 trilllion token으로 pre-training corpus를 scaling한다..?
Qwen2.5-VL 특징
- document parsing capabilites
- text recognition을 upgrade
- Top layer
- multi-modal resoning
Qwen2.5-VL Architecture
다음과 같은 component로 구성
LLM
- Qwen2.5 LLM으로부터 pre-trained weights로 초기화
- multimodal understanding의 요구에 더 잘 대응하기 위해
- 1D RoPE (Rotary Position Embedding) → absolute time에 정렬된 Multimodal Rotary Position Embedding으로 수정
Vision Encoder
- redesign된 Vision Transformer(ViT) architecture를 사용
- 2D-RoPE 와 window attention
- 전체 visual encoder의 계산을 가속화하는 동안 native input resoultuion(원본 이미지가 가진 해상도)을 유지
- 특히 Vision에서 CNN에서 resize를 수행하는데 이때, 정보 손실의 위험이 있음
- Image resizing
- training과 inference 동안 Vit에 입력되기 전에 input image들의 height과 width는 multiples of 28 (28배수)로 resize된다. EX) 만약 16 x 16 patch로 쪼갠다면 이미지 크기를 16의 배수로 쪼개야 나누어 떨어짐.
- patch size
- Vision Encoder는 Image를 stride of 14로 patch들을 나누어 Image feature를 생성
MLP-based Vision-Language Merger
- LLM에 넣기 전 feature seauence들을 압축하는 방법
- → 이는, image feature들의 long sequence들에 의해 ~되는 중요한 문제를 해결
- ViT에 의해 추출되는 raw patch feature들을 사용하여 즉시 사용하는 대신, 다음과 같이 진행
- 4개의 patch feature들의 집합들을 공간적으로 그룹화
- 그룹화된 feature들은 연결되고 2개의 MLP layer에 통과된다.
- LLM에 사용되는 text embedding들을 정렬하는 dimension에 project하기 위해
- computational cost들을 줄인다.
- 변화하는 길이의 image feature sequence들을 동적으로 압축하는 유연한 방법임
- Vision Encoder and Language model decoder
- multimodal input(images와 videos)을 처리
- Vision Encoderdynamic FPS sampling을 지원
- FFN(Feed-Forward Network) with SwiGLU activation
- (최근 좋은 성을 보이는 활성화 함수, 더 부드러운 비선형성, 정보 흐름 개선)
- RMSNorm(Root Mean Square Normalization, 제곱 평균) for normalization
- window-based attention mecahnisms(window 안에서만 self-attention)
- native resolution에 input을 다루기 위해 설계
- description
- varying size를 가진 Image와 different FPS rate를 가진 video frame은 동적으로 token sequences에 연결
- MRoPE는 temporal dimension 사이의 절대적 시간인 time IDs를 정렬함. → 이는 model이 더 temproal dynamics을 더 잘하게 만들어준다.
- 처리된 visual data는 즉시 Qwen2.5 LM Decoder에 투입
1. Pre-training
- First Phase
- Second Phase
- Third Phase
2. Post-training
'Paper' 카테고리의 다른 글
| What are the limitations of current Vision-Language Models? (0) | 2025.10.05 |
|---|---|
| LLaVa - Visual Instruction Tuning: 수정중 (0) | 2025.10.05 |