What are the limitations of current Vision-Language Models?
·
Paper
process and reason about visual and textual informationgaps in contextual understandingdifficulties with sapatial and temproal reasoningreliance on large-scale data → Not generalize well to real-world scenarios 1. The Lack of robust contextual reasoningdeeper understanding of context or common-sense knowledge📷 Image: 어떤 사람이 우산을 들고 있다VLM):"A person holding an umbrella!" → ⭕H): "Why is the person..
Qwen2.5-VL Technical Report [수정중]
·
Paper
KeyPointpre-training 과 fine-tuning 을 어떤 방식으로 했는가?training 시 어디까지 freeze 했는가?→ 그리고 그 phase에서 무엇을 학습하고자 했는가?Qwen-VL의 목적⇒ LLM이 잘 학습된 상태에 Vision의 능력을 학습시켜야 하는데 본래 LLM의 성능을 잃지 않기 위함.⇒ catastrophic forgetting (파멸적 망각): Qwen은 기존의 잘 학습된 LLM이 존재. MultiModal LLM으로 확장하기 위해서는Summaryvisual encoder에서 window attention을 구현→ local attention만 보겠다!→ resoultion 손실 없이 연산 효율 향상→ inference efficiency을 최적화dynamic FPS s..
LLaVa - Visual Instruction Tuning: 수정중
·
Paper
Key PointFlamingo나 BLIP2 에 비해서 어떤 더 좋은 instruction을 만들고자 했는지 알아야 한다.이 visual Instruction tuning 방법의 동기, 이전 연구와 비교했을 때 어떤 방법으로 처리한 것인지, 어떤 효과가 있는지왜 이 구조를 사용했는지, 모델을 선택했는지 유의하면서 읽어볼 것 Summary기존의 instruction tuning → visual instruction tuning을 제안Multimodal (language-image) instruction-following data using GPT-4LLaVA(Larage Language and Vision Assistant)CLIP(vision encoder) + Projection Layer(차원 연결)..