전체 글 17

[Paper Review] LLaVA : Visual Instruction Tuning

Abstractmachine이 생성한 instruction-following data를 사용한 instruction tuning LLM들은 새로운 task에서 zero-shot 성능 향상을 보여줌하지만, 이러한 아이디어는 멀티모달 분야에서는 덜 탐구됨본 연구는 language-only GPT-4를 사용하여 multimodal language-image instruction-following data를 생성하기 위한 첫 번째 시도를 제시이렇게 생성된 데이터에 대한 instruction tuning을 통해, 범용적인 visual and language 이해를 위한 vision encoder와 LLM을 연결한 end-to-end로 훈련된 large multimodal model인 LLaVA(Large Lang..

Paper Review 2025.09.30

[Paper Review] Flamingo: a Visual Language Model for Few-Shot Learning

Abstract소수의 주석이 달린 예제만으로 새로운 작업에 신속하게 적응할 수 있는 모델을 구축하는 것은 멀티모달 머신 러닝 연구의 미해결 과제본 연구에서는 이러한 기능을 갖춘 시각 언어 모델(VLM) 제품군인 Flamingo를 소개(i) 강력한 사전 학습된 vision-only and language-only models 을 연결(ii) 임의로 삽입된 visual and textual data 시퀀스를 처리(iii) 이미지 또는 비디오를 입력으로 원활하게 처리1. IntroductionRecently, multimodal vision-language models trained with a contrastive objective have enabled zero-shot adaptation to novel..

Paper Review 2025.09.30

[Paper Review] BLIP-2 : Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

Abstractlarge-scale models 의 end to end 학습으로 인해 vision-and-language pre-training 의 cost 가 높음BLIP-2 : a generic and efficient pretraining strategy that bootstraps vision-language pre-training from off-the-shelf frozen pre-trained image encoders and frozen large language modelsBLIP-2는 두 단계로 사전 학습되는 경량 쿼리 변환기(Querying Transformer)를 사용하여 모달리티 간 격차를 해소첫 번째 단계는 frozen image encoder 에서 시각-언어 표현 학습을 부트 ..

Paper Review 2025.09.30

[Paper Review] Sigmoid Loss for Language Image Pre-Training

정리에 앞서 해당에서 VLM 에 관해 잘표현된 그림이 있어 가져왔습니다. 공부하는 입장에서 도움이 많이됨…https://kyujinpy.tistory.com/166#introduction [SigLip 논문 리뷰] - Sigmoid Loss for Language Image Pre-Training*SigLip를 위한 논문 리뷰 글입니다! 궁금하신 점은 댓글로 남겨주세요! SigLip paper: https://arxiv.org/abs/2303.15343 Sigmoid Loss for Language Image Pre-TrainingWe propose a simple pairwise Sigmoid loss for Language-Image Pre-trainkyujinpy.tistory.comAbstract..

Paper Review 2025.09.26

[Paper review] EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

AbstractEVA는 visible image patches 를 조건으로 마스크 처리된 이미지-텍스트 정렬 vision features 을 재구성하도록 사전 학습된 vanilla ViT 모델pretext task 을 통해 EVA를 10억 개의 매개변수로 효율적으로 확장하고, image recognition, video action recognition, object detection, instance segmentation and semantic segmentation 과 같은 광범위한 대표적 시각 하위 작업에서 고강도 지도 학습 없이 새로운 기록을 세울 수 있음Moreover, we observe quantitative changes in scaling EVA result in qualitative ..

Paper Review 2025.09.26

1주차 : clip performance tuning (part 1)

지난 포스트에서 https://cooling0.tistory.com/11 1주차: CLIP & Contrastive Learning 맛보기clip 논문에 관한 paper reivew 는 아래에서 볼 수 있습니다.https://cooling0.tistory.com/8이미지→카테고리 매칭 코드 설명 (CLIP, ViT-B/32)아래 코드는 이미지 10장과 카테고리별 텍스트 동의어를 CLIP의 공통cooling0.tistory.com해당 카테고리들을 정확히 맞추지만 확률이 미미한것을 해결하기 위한 방법을 찾아서 적용해당 결과에 대한 코드는https://github.com/cooling-0/VLM-SIDE-PROJECT/blob/main/notebooks/01_01_clip_advance_part1.ipynb ..

1주차: CLIP & Contrastive Learning 맛보기

clip 논문에 관한 paper reivew 는 아래에서 볼 수 있습니다.https://cooling0.tistory.com/8 [Paper Review]Learning Transferable Visual Models From Natural Language SupervisionAbstract제한된 형태의 지도 학습은 다른 시각적 개념을 명시하기 위해 추가적인 레이블링된 데이터가 필요하기 때문에 일반성과 유용성을 제한함.이미지에 대한 원시 텍스트로부터 직접 학습하cooling0.tistory.com 이미지→카테고리 매칭 코드 설명 (CLIP, ViT-B/32)아래 코드는 이미지 10장과 카테고리별 텍스트 동의어를 CLIP의 공통 임베딩 공간으로 투영한 뒤,이미지마다 Top-3 카테고리를 예측하는 파이프..

📅 12주차 VLM × 반대추천 프로젝트 로드맵

computer vision 을 공부하고 싶어 퇴근 후 사이드 프로젝트 해보기로 결정하였습니다.아래와 같이 계획을 세워서 진행해볼 예정입니다......과연 할 수 있을까? 해당 프로젝트의 코드는 아래 github 에 등록할 예정입니다 https://github.com/cooling-0/VLM-SIDE-PROJECT GitHub - cooling-0/VLM-SIDE-PROJECTContribute to cooling-0/VLM-SIDE-PROJECT development by creating an account on GitHub.github.com 🔹 1주차: CLIP & Contrastive Learning 맛보기공부CLIP 논문 [fig.1,2] 읽기: contrastive loss, temperat..

[Paper Review] AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

Abstract비전 분야에서 어텐션은 합성곱 신경망과 함께 적용되거나, 합성곱 신경망의 전체 구조는 그대로 유지하면서 특정 구성 요소를 대체하는 데 사용본 연구에서는 CNN에 대한 이러한 의존성이 불필요하며, 이미지 패치 시퀀스에 직접 적용된 순수 트랜스포머가 이미지 분류 작업에서 매우 우수한 성능을 발휘할 수 있음을 보여줌대량의 데이터로 사전 학습된 Vision Transformer(ViT)는 학습에 필요한 연산 리소스를 크게 줄이면서도 최첨단 합성곱 신경망에 비해 탁월한 결과를 제공IntroductionSelf-attention-based architectures 특히 트랜스포머(Transformers, Vaswani et al., 2017)는 자연어 처리(NLP) 분야에서 선호되는 모델이 되었음주된..

Paper Review 2025.09.24

[Paper Review]Learning Transferable Visual Models From Natural Language Supervision

Abstract제한된 형태의 지도 학습은 다른 시각적 개념을 명시하기 위해 추가적인 레이블링된 데이터가 필요하기 때문에 일반성과 유용성을 제한함.이미지에 대한 원시 텍스트로부터 직접 학습하는 것은 훨씬 더 광범위한 지도 학습 소스를 활용하는 유망한 대안인터넷에서 수집된 4억 개의 (이미지, 텍스트) 쌍으로 구성된 데이터셋을 기반으로 어떤 캡션이 어떤 이미지에 속하는지 예측하는 간단한 사전 학습 작업이 SOTA 이미지 표현을 처음부터 학습하는 효율적사전 학습 후, 자연어를 사용하여 학습된 visual concepts 을 참조하거나 새로운 개념을 설명함으로써 모델을 후속 작업으로 즉시 이전할 수 있음 (zero-shot transfer of the model to downstream tasks)1. Intr..

Paper Review 2025.09.23