Machine Learning

75 topics across 7 chapters

Chapter 1

Prerequisites: Math, Programming, and Data

Linear Algebra Essentials for ML

Calculus Essentials for Optimization

Probability Fundamentals

Statistics for Inference and Estimation

Python for Data Science (NumPy, Pandas)

Data Visualization and Communication (Matplotlib/Seaborn)

Data Cleaning and Feature Basics

Chapter 2

Core ML Concepts and Workflow

Problem Framing: Inputs, Outputs, and Objectives

Training vs. Validation vs. Test Splits

Loss Functions and Empirical Risk Minimization

Optimization Basics: Gradient Descent and Variants

Overfitting, Underfitting, Bias–Variance

Data Leakage and Causality Pitfalls (Intro)

Chapter 3

Supervised Learning

Linear Regression and Regularization (Ridge/Lasso)

Logistic Regression and Linear Classifiers

k-Nearest Neighbors (kNN)

Decision Trees and Random Forests

Gradient Boosting (XGBoost/LightGBM/CatBoost)

Support Vector Machines (SVMs)

Feature Engineering for Tabular Data

Chapter 4

Unsupervised Learning

Clustering: k-Means and Hierarchical Clustering

Dimensionality Reduction: PCA and t-SNE/UMAP (Concepts)

Density Estimation and Anomaly Detection (Intro)

Topic Modeling (LDA Basics)

Association Rules (Apriori Basics)

Recommender Systems (Collaborative Filtering Intro)

Chapter 5

Deep Learning

Neural Network Foundations (Perceptron → MLP)

Backpropagation and Automatic Differentiation

Training Deep Nets: Initialization, Optimizers, Regularization

Convolutional Neural Networks (CNNs) for Vision

Sequence Models: RNN/LSTM/GRU Basics

Transformers (Attention Basics)

Chapter 6

Model Evaluation, Tuning, and MLOps

Evaluation Metrics for Regression and Classification

Cross-Validation and Robust Model Selection

Hyperparameter Tuning (Grid/Random/Bayesian)

Calibration, Thresholding, and Decision Costs

Experiment Tracking and Reproducibility

Deployment Basics: Batch, Real-time, and Edge

Monitoring and Drift Detection (Data/Concept Drift)

Chapter 7

Applied ML: Projects, Domains, and Ethics

End-to-End Project: Tabular Prediction (Baseline → Production-ish)

3 subtopics

Build a clean training pipeline with scikit-learn Pipelines

Create a strong baseline and compare to boosting models

Package the model + preprocessing for consistent inference

Natural Language Processing (Applied)

3 subtopics

Text preprocessing and vectorization (TF-IDF, n-grams)

Fine-tune a transformer for text classification

Evaluate NLP systems (F1, calibration, error analysis)

Computer Vision (Applied)

3 subtopics

Image data pipelines and augmentation

Transfer learning with pretrained CNNs

Evaluate vision models (accuracy, confusion, robustness checks)

Time Series and Forecasting (Applied)

3 subtopics

Train/validation splits for temporal data (leakage-safe)

Classical forecasting baselines (ARIMA/ETS)

Feature-based ML for forecasting (lags, rolling stats)

Interpretability and Debugging Models

3 subtopics

Permutation importance and partial dependence (PDP/ICE)

SHAP basics for tabular models

Systematic error analysis (slices, counterfactual tests)

Fairness, Privacy, and Responsible ML

3 subtopics

Fairness metrics and trade-offs (group parity basics)

Privacy basics (PII handling, differential privacy intro)

Model cards, documentation, and risk assessment

Capstone: Portfolio, Write-ups, and Interviews

3 subtopics

Write project reports with problem framing, metrics, and lessons learned

Create a portfolio (GitHub repos, demos, reproducible notebooks)

Interview prep: ML system design + modeling questions