Machine Learning

128 topics across 7 chapters

Chapter 1

Math foundations for ML

Linear algebra essentials

2 subtopics

Vectors, matrices, and basic operations (practice exercises)

Eigenvalues/eigenvectors + SVD intuition (worked problems)

Calculus for optimization

2 subtopics

Derivatives, gradients, Jacobians (compute by hand)

Chain rule & backprop intuition (manual derivations)

Probability & statistics

3 subtopics

Random variables, expectations, variance (problem set)

Common distributions + sampling (simulate in Python)

Bayes rule, MLE/MAP, bias-variance (short derivations)

Information theory (useful core ideas)

2 subtopics

Entropy, cross-entropy, KL divergence (compute examples)

Why log-loss works (binary + multiclass toy examples)

Numerical methods & stability

2 subtopics

Floating point, overflow/underflow, normalization tricks (mini-lab)

Gradient descent behavior: step sizes & conditioning (experiments)

Chapter 2

Programming & data tooling

Python for ML (core idioms)

2 subtopics

Functions, classes, typing, packaging basics (small exercises)

Performance basics: vectorization, profiling (micro-benchmarks)

NumPy, pandas, and data manipulation

2 subtopics

Indexing, broadcasting, reshape (NumPy drills)

Joins, groupby, time series basics (pandas mini-projects)

Data cleaning & feature engineering basics

2 subtopics

Missing data, leakage, outliers (checklist + practice)

Scaling, encoding, text basics (build sklearn pipelines)

Visualization & exploratory data analysis (EDA)

2 subtopics

Distributions, correlation pitfalls, target leakage detection (EDA lab)

Plotting with matplotlib/seaborn/plotly (recreate 10 plots)

Reproducibility & experiment tracking

2 subtopics

Random seeds, determinism, environment capture (practice)

Train/val/test splits, CV setup, logging runs (template project)

Chapter 3

Supervised learning algorithms

Problem framing: regression vs classification

2 subtopics

Define targets, loss, metrics; baseline models (worksheet)

Imbalanced classes and thresholding (hands-on notebook)

Linear models

4 subtopics

Ordinary least squares + diagnostics (implement from scratch)

Logistic regression + calibration (implement + evaluate)

Regularization: L1/L2/elastic net (experiments)

Feature interactions & polynomial features (compare models)

Tree-based models

3 subtopics

Decision trees: splitting criteria, pruning (from-scratch toy)

Random forests: bagging, OOB error, feature importance (lab)

Gradient boosting (XGBoost/LightGBM/CatBoost) model tuning (lab)

Kernel methods & SVMs

2 subtopics

Margins, hinge loss, soft margin (derive + visualize)

Kernel trick: RBF vs polynomial; scaling effects (experiments)

Model evaluation & selection

4 subtopics

↗ Train/val/test splits, CV setup, logging runs (template project) (see Chapter 2)

Metrics by task: RMSE/MAE, ROC-AUC/PR-AUC, F1 (cheat-sheet + code)

Cross-validation patterns (K-fold, stratified, time series) (lab)

Hyperparameter search: random, Bayesian, early stopping (apply)

Interpretability & debugging

3 subtopics

Permutation importance, PDP/ICE (interpret a tabular model)

SHAP basics (explain predictions; sanity checks)

Error analysis: slice metrics, confusion matrix deep-dive (template)

Chapter 4

Unsupervised learning

Clustering

3 subtopics

K-means: objective, init, scaling; evaluate with silhouette (lab)

DBSCAN/HDBSCAN: density intuition; parameter sweeps (lab)

Gaussian Mixture Models + EM (fit & compare to k-means)

Dimensionality reduction

3 subtopics

PCA: variance, whitening, reconstruction error (implement + apply)

t-SNE/UMAP: what plots mean (and don’t) (guided experiments)

Autoencoders for embeddings (train a small one)

Anomaly detection

2 subtopics

Isolation Forest + one-class SVM (compare on a dataset)

Evaluation without labels + alert thresholds (playbook)

Recommendation basics (unsupervised & implicit feedback)

2 subtopics

Similarity search: cosine, ANN indexes (FAISS-like) (lab)

Matrix factorization for implicit data (implement ALS/BPR toy)

Chapter 5

Deep learning

Neural network basics

4 subtopics

↗ Chain rule & backprop intuition (manual derivations) (see Chapter 1)

Activations, initialization, normalization (ablation experiments)

Optimization: SGD, momentum, Adam; LR schedules (training runs)

Regularization: dropout, weight decay, augmentation (lab)

Computer vision

3 subtopics

CNN building blocks (conv/pool) + receptive field (exercises)

Transfer learning with pretrained CNNs (fine-tune a classifier)

Detection/segmentation overview (YOLO/U-Net) (implement a small demo)

Natural language processing (NLP)

3 subtopics

Tokenization + embeddings (train/compare)

Transformers: attention, positional encoding (trace shapes in code)

Fine-tuning a small transformer (classification or NER) (lab)

Generative models (core ideas)

3 subtopics

Autoregressive modeling + sampling strategies (top-k/top-p) (lab)

Diffusion models: noise schedule intuition (guided notebook)

VAEs vs GANs: what each optimizes (compare on MNIST/CIFAR)

Deep learning engineering & scaling

3 subtopics

GPU basics + mixed precision + memory debugging (practical checklist)

Data loaders, batching, throughput tuning (profile and improve)

Distributed training overview (DDP) + gradient accumulation (demo)

Chapter 6

ML systems & MLOps

Data pipelines & feature stores

2 subtopics

Batch vs streaming; backfills; idempotency (design exercises)

Feature store concepts: training/serving parity (case study)

Model serving

3 subtopics

Batch scoring vs online inference (choose architecture)

Latency, throughput, caching; vector search serving (mini-design)

Packaging models: APIs, Docker, versioning (ship a demo service)

Monitoring & continuous evaluation

3 subtopics

Data drift, concept drift, label delay (monitoring plan)

Model quality dashboards + alerting thresholds (build a small one)

Offline-to-online evaluation + A/B testing basics (checklist)

100

Experiment management & model registry

2 subtopics

101

Track parameters/metrics/artifacts; compare runs (set up tooling)

102

Model registry: stages, approvals, reproducible promotion (workflow)

103

Testing & reliability for ML code

2 subtopics

104

Unit/integration tests for data + models (write 10 tests)

105

CI/CD for ML: training pipelines + deployment gates (design)

106

Security, privacy, and governance

3 subtopics

107

PII handling, minimization, retention (policy checklist)

108

Adversarial ML + prompt injection awareness (threat modeling)

109

Model governance: documentation, audits, model cards (write one)

Chapter 7

Ethics, fairness, and responsible ML

110

Fairness concepts & metrics

2 subtopics

111

Demographic parity, equalized odds, calibration tradeoffs (toy cases)

112

Sampling bias and measurement bias (diagnose in a dataset)

113

Privacy-preserving ML basics

2 subtopics

114

Differential privacy intuition (epsilon experiments)

115

Federated learning overview (design tradeoffs)

116

Robustness & safety

2 subtopics

117

OOD detection & robustness testing (stress test a model)

118

Human-in-the-loop + red teaming for ML systems (process draft)

119

Communication & documentation

2 subtopics

↗ Model governance: documentation, audits, model cards (write one) (see Chapter 6)

120

Write a model report: goal, data, metrics, risks, next steps (template)