ML Wiki

Tag: training

44 items with this tag.

May 09, 2026
Mixed Precision Training
May 09, 2026
Negative Sampling
May 04, 2026
Quantization
Apr 29, 2026
ORPO: Monolithic Preference Optimization without Reference Model
Apr 24, 2026
Mixture of Depths: Dynamically Allocating Compute in Transformer LLMs
Apr 22, 2026
Ensemble Methods
Apr 22, 2026
Temperature Scaling
Apr 22, 2026
Distilling the Knowledge in a Neural Network
Apr 22, 2026
KTO: Model Alignment as Prospect Theoretic Optimization
Apr 21, 2026
optimization
Apr 21, 2026
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
Apr 19, 2026
Batch Normalization
Apr 19, 2026
Vanishing Gradients
Apr 17, 2026
How LLMs Are Trained — From Scratch to RLHF
Apr 17, 2026
AI Feedback (RLAIF)
Apr 17, 2026
Data Augmentation
Apr 17, 2026
Data Quality
Apr 17, 2026
Memory Efficiency
Apr 17, 2026
Policy Gradient
Apr 17, 2026
Reinforcement Learning
Apr 17, 2026
Self-Critique (AI)
Apr 17, 2026
Self-Supervised Learning
Apr 17, 2026
Proximal Policy Optimization Algorithms
Apr 16, 2026
GRPO (Group Relative Policy Optimization)
Apr 16, 2026
GRPO: Group Relative Policy Optimization (DeepSeekMath)
Apr 15, 2026
Compute-Optimal Training
Apr 15, 2026
Scaling Laws for Neural Language Models - explained
Apr 14, 2026
adaptive-learning-rate
Apr 14, 2026
bias-correction
Apr 14, 2026
momentum
Apr 14, 2026
stochastic-gradient-descent
Apr 14, 2026
Adam: the optimizer that adapts — explained
Apr 13, 2026
Fine-tuning
Apr 13, 2026
Pre-training
Apr 11, 2026
Transfer Learning
Apr 10, 2026
Alignment (AI)
Apr 10, 2026
Contrastive Learning
Apr 10, 2026
PPO (Proximal Policy Optimization)
Apr 10, 2026
Reward Model
Apr 10, 2026
Scaling Laws
Apr 04, 2026
Distillation (Knowledge Distillation)
Apr 04, 2026
DPO (Direct Preference Optimization)
Apr 04, 2026
RLHF (Reinforcement Learning from Human Feedback)
Apr 04, 2026
SFT (Supervised Fine-Tuning)