Paper Review 14

[Paper Review] LLaVA : Visual Instruction Tuning

Abstractmachine이 생성한 instruction-following data를 사용한 instruction tuning LLM들은 새로운 task에서 zero-shot 성능 향상을 보여줌하지만, 이러한 아이디어는 멀티모달 분야에서는 덜 탐구됨본 연구는 language-only GPT-4를 사용하여 multimodal language-image instruction-following data를 생성하기 위한 첫 번째 시도를 제시이렇게 생성된 데이터에 대한 instruction tuning을 통해, 범용적인 visual and language 이해를 위한 vision encoder와 LLM을 연결한 end-to-end로 훈련된 large multimodal model인 LLaVA(Large Lang..

Paper Review 2025.09.30

[Paper Review] Flamingo: a Visual Language Model for Few-Shot Learning

Abstract소수의 주석이 달린 예제만으로 새로운 작업에 신속하게 적응할 수 있는 모델을 구축하는 것은 멀티모달 머신 러닝 연구의 미해결 과제본 연구에서는 이러한 기능을 갖춘 시각 언어 모델(VLM) 제품군인 Flamingo를 소개(i) 강력한 사전 학습된 vision-only and language-only models 을 연결(ii) 임의로 삽입된 visual and textual data 시퀀스를 처리(iii) 이미지 또는 비디오를 입력으로 원활하게 처리1. IntroductionRecently, multimodal vision-language models trained with a contrastive objective have enabled zero-shot adaptation to novel..

Paper Review 2025.09.30

[Paper Review] BLIP-2 : Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

Abstractlarge-scale models 의 end to end 학습으로 인해 vision-and-language pre-training 의 cost 가 높음BLIP-2 : a generic and efficient pretraining strategy that bootstraps vision-language pre-training from off-the-shelf frozen pre-trained image encoders and frozen large language modelsBLIP-2는 두 단계로 사전 학습되는 경량 쿼리 변환기(Querying Transformer)를 사용하여 모달리티 간 격차를 해소첫 번째 단계는 frozen image encoder 에서 시각-언어 표현 학습을 부트 ..

Paper Review 2025.09.30

[Paper Review] Sigmoid Loss for Language Image Pre-Training

정리에 앞서 해당에서 VLM 에 관해 잘표현된 그림이 있어 가져왔습니다. 공부하는 입장에서 도움이 많이됨…https://kyujinpy.tistory.com/166#introduction [SigLip 논문 리뷰] - Sigmoid Loss for Language Image Pre-Training*SigLip를 위한 논문 리뷰 글입니다! 궁금하신 점은 댓글로 남겨주세요! SigLip paper: https://arxiv.org/abs/2303.15343 Sigmoid Loss for Language Image Pre-TrainingWe propose a simple pairwise Sigmoid loss for Language-Image Pre-trainkyujinpy.tistory.comAbstract..

Paper Review 2025.09.26

[Paper review] EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

AbstractEVA는 visible image patches 를 조건으로 마스크 처리된 이미지-텍스트 정렬 vision features 을 재구성하도록 사전 학습된 vanilla ViT 모델pretext task 을 통해 EVA를 10억 개의 매개변수로 효율적으로 확장하고, image recognition, video action recognition, object detection, instance segmentation and semantic segmentation 과 같은 광범위한 대표적 시각 하위 작업에서 고강도 지도 학습 없이 새로운 기록을 세울 수 있음Moreover, we observe quantitative changes in scaling EVA result in qualitative ..

Paper Review 2025.09.26

[Paper Review] AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

Abstract비전 분야에서 어텐션은 합성곱 신경망과 함께 적용되거나, 합성곱 신경망의 전체 구조는 그대로 유지하면서 특정 구성 요소를 대체하는 데 사용본 연구에서는 CNN에 대한 이러한 의존성이 불필요하며, 이미지 패치 시퀀스에 직접 적용된 순수 트랜스포머가 이미지 분류 작업에서 매우 우수한 성능을 발휘할 수 있음을 보여줌대량의 데이터로 사전 학습된 Vision Transformer(ViT)는 학습에 필요한 연산 리소스를 크게 줄이면서도 최첨단 합성곱 신경망에 비해 탁월한 결과를 제공IntroductionSelf-attention-based architectures 특히 트랜스포머(Transformers, Vaswani et al., 2017)는 자연어 처리(NLP) 분야에서 선호되는 모델이 되었음주된..

Paper Review 2025.09.24

[Paper Review]Learning Transferable Visual Models From Natural Language Supervision

Abstract제한된 형태의 지도 학습은 다른 시각적 개념을 명시하기 위해 추가적인 레이블링된 데이터가 필요하기 때문에 일반성과 유용성을 제한함.이미지에 대한 원시 텍스트로부터 직접 학습하는 것은 훨씬 더 광범위한 지도 학습 소스를 활용하는 유망한 대안인터넷에서 수집된 4억 개의 (이미지, 텍스트) 쌍으로 구성된 데이터셋을 기반으로 어떤 캡션이 어떤 이미지에 속하는지 예측하는 간단한 사전 학습 작업이 SOTA 이미지 표현을 처음부터 학습하는 효율적사전 학습 후, 자연어를 사용하여 학습된 visual concepts 을 참조하거나 새로운 개념을 설명함으로써 모델을 후속 작업으로 즉시 이전할 수 있음 (zero-shot transfer of the model to downstream tasks)1. Intr..

Paper Review 2025.09.23

[Paper Review] MODERNTCN: A MODERN PURE CONVOLUTION STRUCTURE FOR GENERAL TIME SERIES ANALYSIS

Intorduction시계열 분석에서 convolution 을 사용하는 것은 효율성과 성능의 더 나은 균형을 제공하기 때문에 사소한 일이 아닙니다Transformerbased models and MLP-based modelsThanks to their global effective receptive fields (ERFs), they can better capture the long-term temporal (cross-time) dependency and thus outperform traditional TCNs by a significant margin. ERF를 높이는 것이 합성곱을 시계열 분석에 다시 적용하는 핵심입니다.그러나 기존 합성곱 기반 모델은 여전히 ERF가 제한적이어서 추가적인 성능 향..

Paper Review 2025.09.12

[Paper Review] Binning as a Pretext Task:Improving Self-Supervised Learning in Tabular Domains

🔹 Pretext Task란?Self-supervised learning에서,레이블 없이 모델이 의미 있는 표현(representation)을 학습할 수 있도록 설계된가짜(task-like) 학습 과제를 말해.Introduction표 형식 데이터에서 딥 네트워크의 성능을 향상시키려는 노력이 탄력을 받고 있음근본적인 과제는 범주형 및 숫자형 특징을 모두 포함하는 표 형식 데이터 세트의 고유한 이질성이러한 발전은 여러 표 형식 데이터 문제에서 향상된 성능을 가져왔지만, 주로 지도 학습 프레임워크 내에서 탐색되어 왔으며, 여전히 단순한 트리 기반 방법의 성능을 능가하지는 못했음본 연구에서는 트리 기반 방법을 근본적으로 적용할 수 없는 비지도 테이블형 딥러닝의 과제자동 인코딩 기반 자기 지도 학습(SSL)을 ..

Paper Review 2025.09.12

[Paper review] AGATa: Attention-Guided Augmentation for TabularData in Contrastive Learning

Contrastive Learning에서 자주 등장하는 용어 정리용어 정의 설명Anchor기준 데이터 포인트기준이 되는 입력 샘플 xxPositive (Pos)Anchor와 의미적으로 유사한 샘플같은 클래스 or 변형된 버전 (ex. data augmentation)Negative (Neg)Anchor와 의미적으로 다른 샘플다른 클래스 or 무작위 샘플Positive Pair(Anchor, Positive) 쌍서로 가깝게 embedding해야 함Negative Pair(Anchor, Negative) 쌍서로 멀게 embedding해야 함Embedding입력을 벡터로 변환한 표현모델이 학습하는 표현 공간Projection Head학습용 표현으로 변환하는 작은 네트워크보통 MLP로 구성됨 (SimCLR 등에..

Paper Review 2025.09.12