Machine Learning

150 topics across 7 chapters

Chapter 1

Math foundations for ML

Linear algebra essentials

4 subtopics

Vectors, matrices, and shapes (dimensions)

Matrix multiplication, transpose, inverse (intuition + mechanics)

Dot products, projections, cosine similarity

Eigenvalues/eigenvectors and PCA intuition

Probability foundations

4 subtopics

Random variables, expectation, variance

Common distributions (Bernoulli, Binomial, Normal, Poisson)

Conditional probability and Bayes’ rule

Independence, covariance, correlation

Statistics essentials

4 subtopics

Sampling, estimators, bias vs variance (statistical view)

Hypothesis testing and confidence intervals (practical intuition)

Maximum likelihood estimation (MLE) and MAP

Overfitting, generalization, and cross-validation (statistical lens)

Calculus for optimization

4 subtopics

Derivatives and gradients (single + multivariate)

Chain rule and backpropagation intuition

Convexity (why some problems are easier)

Gradient descent and learning-rate behavior

Information theory basics (useful for ML)

3 subtopics

Entropy and cross-entropy (classification loss intuition)

KL divergence and why it shows up in ML

Mutual information (feature relevance intuition)

Chapter 2

Data, tooling, and ML workflow

Python + notebooks + environments

3 subtopics

NumPy arrays and vectorization basics

pandas dataframes: joins, groupby, missing values

Reproducible environments (venv/conda, requirements, seeds)

Data understanding and preparation

5 subtopics

Train/validation/test splits and leakage prevention

Feature scaling and normalization (when/why)

Categorical encoding (one-hot, target encoding caveats)

Handling missing data and outliers (robust approaches)

Feature engineering mindset (baseline-first)

Problem framing and baselines

4 subtopics

Choose task type: regression vs classification vs ranking

Define success metrics and constraints (latency, cost, fairness)

Create a simple baseline model (and beat it)

Error analysis loop (slice-by-slice)

Model evaluation essentials

4 subtopics

Classification metrics: precision/recall/F1, ROC-AUC, PR-AUC

Regression metrics: MAE, RMSE, R² (and when each misleads)

Calibration and decision thresholds

Statistical significance for model comparisons (practical)

Experiment tracking and versioning

3 subtopics

Track data/model/code versions (what to record)

Use an experiment tracker (e.g., MLflow/W&B) effectively

Write a clean training script (config-driven)

Practical optimization & regularization tools

6 subtopics

L1/L2 regularization and weight decay

Early stopping and checkpoints

Learning rate schedules (step, cosine, warmup)

Class imbalance handling (weights, sampling, focal loss idea)

Hyperparameter search (random, Bayesian) basics

Debugging training: sanity checks and failure modes

Chapter 3

Supervised learning core

Linear models

3 subtopics

Linear regression (least squares, regularized variants)

Logistic regression (decision boundary + loss)

Interpretability for linear models (coefficients, odds ratios)

k-Nearest Neighbors (kNN)

1 subtopics

Efficient search intuition (KD-trees, approximate NN concept)

Decision trees and ensembles

3 subtopics

Random forests: bagging and feature subsampling

XGBoost/LightGBM/CatBoost (when to choose which)

Feature importance and SHAP basics (interpretability)

Support Vector Machines (SVM)

3 subtopics

Margins and hinge loss intuition

Kernel trick conceptually (RBF, polynomial)

When SVMs work well (small/medium data) and pitfalls

Neural networks basics (MLP)

2 subtopics

Perceptron to multilayer networks (what layers do)

Activations (ReLU, sigmoid, tanh) and saturation issues

Model selection & bias-variance tradeoffs

2 subtopics

Learning curves (diagnose under/overfitting)

Ensembling strategies (stacking/blending basics)

Chapter 4

Unsupervised learning

Clustering basics

3 subtopics

Hierarchical clustering (linkage + dendrogram reading)

DBSCAN/HDBSCAN: density-based clustering and parameters

Cluster evaluation (silhouette, stability) and caveats

Dimensionality reduction

2 subtopics

t-SNE and UMAP: visualization vs modeling (pitfalls)

Manifold hypothesis (why non-linear methods can help)

Anomaly and novelty detection

1 subtopics

Z-score/IQR and robust statistics baselines

Topic modeling and representations

2 subtopics

Bag-of-words, TF-IDF, and sparse vectors

Latent Dirichlet Allocation (LDA) intuition

Representation learning principles

3 subtopics

Inductive biases (why architectures matter)

Self-supervised learning idea (contrastive, masked prediction)

Transfer learning and fine-tuning (practical patterns)

Chapter 5

Deep learning for vision and language

Deep learning training stack

3 subtopics

GPU basics and batching (why it speeds training)

Data loaders, augmentation, and shuffling correctness

Mixed precision training and numerical stability basics

Computer vision basics (CNNs)

2 subtopics

Convolutions, padding, stride, receptive fields

Classic CNN architectures (LeNet→ResNet intuition)

Natural language processing basics

3 subtopics

100

Tokenization, vocabularies, subwords (BPE idea)

101

Transformers fundamentals (attention, positional encoding)

102

NLP evaluation (BLEU/ROUGE vs task metrics)

103

Generative modeling basics

1 subtopics

104

Diffusion models conceptually (denoising, guidance)

105

Practical fine-tuning and prompting

2 subtopics

106

Prompting patterns (zero/few-shot, chain-of-thought caution)

107

Parameter-efficient fine-tuning (LoRA/adapters) conceptually

108

Deep learning engineering practices

2 subtopics

109

Efficient training (profiling, bottlenecks, data pipeline)

110

Deployment-aware training (latency, quantization idea)

Chapter 6

ML engineering, deployment, and MLOps

111

Serving patterns and deployment basics

4 subtopics

112

Batch vs online inference (tradeoffs)

113

Model packaging (Docker basics)

114

REST/gRPC model serving concepts

115

Latency budgeting and performance testing basics

116

Pipelines and orchestration

3 subtopics

117

ETL/ELT concepts and feature pipelines

118

Orchestration tools (Airflow/Prefect/Kubeflow) overview

119

Backfills, idempotency, and pipeline testing basics

120

Feature stores and data management

2 subtopics

121

Feature store concepts (entities, feature views)

122

Data quality checks (schema, ranges, drift)

123

Monitoring, drift, and retraining

4 subtopics

124

Monitor inputs/outputs (data drift vs concept drift)

125

Detect performance decay (labels delayed scenarios)

126

Alerting and incident response runbooks for ML systems

127

Retraining triggers and safe rollout strategies

128

Model governance and compliance basics

2 subtopics

129

Model cards and documentation (what to include)

130

Privacy basics (PII, anonymization, differential privacy idea)

131

Testing and reliability for ML

4 subtopics

132

Unit tests for data transforms and feature logic

133

Model validation tests (golden sets, invariances)

134

Adversarial and robustness testing basics

135

Canary deployments and A/B tests for models

136

Scaling systems for ML

3 subtopics

137

Distributed training basics (data vs model parallel idea)

138

Compute/storage tradeoffs (caching, embedding indexes)

139

Cost estimation and capacity planning for ML workloads

Chapter 7

Responsible AI and ethics

140

Fairness basics and common definitions

141

Bias sources (data, labeling, measurement, feedback loops)

142

Human-in-the-loop systems and oversight