Qwen2.5-VL Technical Report [수정중]

2025. 10. 5. 02:19·Paper

KeyPoint

  • pre-training 과 fine-tuning 을 어떤 방식으로 했는가?
  • training 시 어디까지 freeze 했는가?→ 그리고 그 phase에서 무엇을 학습하고자 했는가?
  • Qwen-VL의 목적⇒ LLM이 잘 학습된 상태에 Vision의 능력을 학습시켜야 하는데 본래 LLM의 성능을 잃지 않기 위함.
  • ⇒ catastrophic forgetting (파멸적 망각)
  • : Qwen은 기존의 잘 학습된 LLM이 존재. MultiModal LLM으로 확장하기 위해서는

Summary

  • visual encoder에서 window attention을 구현→ local attention만 보겠다!
  • → resoultion 손실 없이 연산 효율 향상
  • → inference efficiency을 최적화
  • dynamic FPS sampling 및 MRoPE 확장→ 다양한 sampling rate들 가운데 video understanding이 가능하게 한다.
  • → temproal domain에서의 MRoPE를 upgrade :Absolute time encoding
  • → temproal dimension에서 dynamic resolution을 확장한 것
  • pre-training과 supervised fine-tuning에 대해서 high-quality data를 수집
  • → 더 나아가 1.2 trillion token에서 4.1 trilllion token으로 pre-training corpus를 scaling한다

Q. pre-training 과 fine-tuning 을 어떤 방식으로 했는가?

어디까지 freeze 했는지 학습했는가?

왜 → 기존의 Qwen LLM이 잘 학습된 상태에 Vision의 능력을 학습시켜야 하는데 본래 LLM의 성능을 잃지 않기 위함.

VLM

  • By seamlessly integrating visual perception with natural language processing, these advanced models are fundamentally reshaping how machines interpret and analyze complex information across diverse domains
  • Multi-modal LLM 들 잘하긴 하는데, 최고 성능은 못 내고 있음.
    • 이때 중요한 점은 아주 정밀한 시각적 인식 능력이 기반이 되어야 다른 작업도 잘 수행된다
  • architectural design, visual input processing, data curation(수집)에서 많은 진전이 있음.
    1. architectural design
      • Alayrac et al., 2022; Li et al., 2022a; 2023b; Liu et al., 2023b;a; Wang et al., 2024i; Zhang et al., 2024b; Wang et al., 2023 이 연구들을 통해서 현재의 LVLM model의 구조가 만들어짐
      • 전형적인 구조
      visual encoder: 이미지를 이해하는 부분LLM: 텍스트 생성 및 추론을 담당
      • 이미지의 detail한 작업도 중요한 주제로 화두
      • Omni, MOE가 주요 LVLM의 구조로 뜨고 있음.
    2. cross-modal projector: visual content와 text content를 연결해 주는 다리 역할
    3. visual input processing
    4. visual encoder와 resolution scaling(해상도 조정)에서의 발전은 visual understanding의 품질 향상에 큰 역할을 함
    5. data curation
    6. 다양하고 고품질의 data를 수집하고 정제하는 것은 LVLM의 학습에 필수
  • bottleneckslimited contextual understandinginconsistent performance across varied sequence length
  • poor fine-grained visual perception
  • computational complexity

Introduce to Qwen2.5-VL

  • 다양한 benchmarks에 top-tier에 가까운 source model로서 달성
  • contribution
    1. inference efficiency을 최적화 하기 위한 visual encoder에서 window attention을 구현
    2. dynamic FPS(Frame Per Second) sampling (temproal dimention에서 dynamic resolution을 확장한 것?)
    3. 다양한 sampling rate들 가운데 video understanding이 가능하게 한다.
    4. 절대적 시각에서 aligning함으로써 temproal domain에서의 MropE를 업그레드한다? temporal domin에서 MRoPE를 업그레이드 한다.
    5. pre-training과 supervised fine-tuning에 대해서 high-quality data를 수집, 더 나아가 1.2 trillion token에서 4.1 trilllion token으로 pre-training corpus를 scaling한다..?

Qwen2.5-VL 특징

  • document parsing capabilites
    • text recognition을 upgrade
  • Top layer
  • multi-modal resoning

Qwen2.5-VL Architecture

다음과 같은 component로 구성

 

LLM

  • Qwen2.5 LLM으로부터 pre-trained weights로 초기화
  • multimodal understanding의 요구에 더 잘 대응하기 위해
    • 1D RoPE (Rotary Position Embedding) → absolute time에 정렬된 Multimodal Rotary Position Embedding으로 수정

Vision Encoder

  • redesign된 Vision Transformer(ViT) architecture를 사용
  • 2D-RoPE 와 window attention
    • 전체 visual encoder의 계산을 가속화하는 동안 native input resoultuion(원본 이미지가 가진 해상도)을 유지
    • 특히 Vision에서 CNN에서 resize를 수행하는데 이때, 정보 손실의 위험이 있음
  • Image resizing
    • training과 inference 동안 Vit에 입력되기 전에 input image들의 height과 width는 multiples of 28 (28배수)로 resize된다. EX) 만약 16 x 16 patch로 쪼갠다면 이미지 크기를 16의 배수로 쪼개야 나누어 떨어짐.
  • patch size
    • Vision Encoder는 Image를 stride of 14로 patch들을 나누어 Image feature를 생성

MLP-based Vision-Language Merger

  • LLM에 넣기 전 feature seauence들을 압축하는 방법
  • → 이는, image feature들의 long sequence들에 의해 ~되는 중요한 문제를 해결
  • ViT에 의해 추출되는 raw patch feature들을 사용하여 즉시 사용하는 대신, 다음과 같이 진행
    • 4개의 patch feature들의 집합들을 공간적으로 그룹화
    • 그룹화된 feature들은 연결되고 2개의 MLP layer에 통과된다.
    • LLM에 사용되는 text embedding들을 정렬하는 dimension에 project하기 위해
  • computational cost들을 줄인다.
  • 변화하는 길이의 image feature sequence들을 동적으로 압축하는 유연한 방법임
  • Vision Encoder and Language model decoder
  • multimodal input(images와 videos)을 처리
  • Vision Encoderdynamic FPS sampling을 지원
    • FFN(Feed-Forward Network) with SwiGLU activation
    • (최근 좋은 성을 보이는 활성화 함수, 더 부드러운 비선형성, 정보 흐름 개선)
    • RMSNorm(Root Mean Square Normalization, 제곱 평균) for normalization
    • window-based attention mecahnisms(window 안에서만 self-attention)
  • native resolution에 input을 다루기 위해 설계
  • description
    • varying size를 가진 Image와 different FPS rate를 가진 video frame은 동적으로 token sequences에 연결
    • MRoPE는 temporal dimension 사이의 절대적 시간인 time IDs를 정렬함. → 이는 model이 더 temproal dynamics을 더 잘하게 만들어준다.
    • 처리된 visual data는 즉시 Qwen2.5 LM Decoder에 투입

1. Pre-training

  • First Phase
  • Second Phase
  • Third Phase

2. Post-training

'Paper' 카테고리의 다른 글

What are the limitations of current Vision-Language Models?  (0) 2025.10.05
LLaVa - Visual Instruction Tuning: 수정중  (0) 2025.10.05
'Paper' 카테고리의 다른 글
  • What are the limitations of current Vision-Language Models?
  • LLaVa - Visual Instruction Tuning: 수정중
GoGoDDubi
GoGoDDubi
  • GoGoDDubi
    LetsGoDDubi
    GoGoDDubi
  • 전체
    오늘
    어제
    • 분류 전체보기 (12)
      • AI & ML (6)
        • LLM (6)
        • Vision (0)
      • Data (0)
      • Paper (3)
      • DevOps (3)
        • MLOps (0)
        • Airflow (3)
      • Infra (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    Airflow
    mlops
    vlm
    DevOps
    AI/ML
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.6
GoGoDDubi
Qwen2.5-VL Technical Report [수정중]
상단으로

티스토리툴바