ML Wiki

Tag: vision

19 items with this tag.

May 09, 2026
Masked Image Modeling
May 09, 2026
Qwen2.5-VL Technical Report
May 09, 2026
SAM 2: Segment Anything in Images and Videos
Apr 24, 2026
Vision-Language Models (VLMs)
Apr 17, 2026
How Diffusion Works — From DDPM to Latent Diffusion
Apr 17, 2026
From Pixels to Understanding — Vision-Language Models
Apr 17, 2026
Data Augmentation
Apr 17, 2026
Emerging Properties in Self-Supervised Vision Transformers (DINO)
Apr 17, 2026
SimCLR: A Simple Framework for Contrastive Learning of Visual Representations
Apr 16, 2026
Foundation Models
Apr 16, 2026
Promptable Segmentation
Apr 16, 2026
Segment Anything - explained
Apr 11, 2026
Patch Embeddings
Apr 11, 2026
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
Apr 10, 2026
Video Generation (Diffusion-Based)
Apr 10, 2026
Vision Transformer (ViT)
Apr 10, 2026
Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models (Metis / HDPO)
Apr 10, 2026
NUMINA: When Numbers Speak — Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models
Apr 09, 2026
CLIP: Learning Transferable Visual Models From Natural Language Supervision