CMU's On-Device Machine Learning Class (11-767)

Practical applications

Distillation

Pruning

Neural architecture search

Benchmarking

Quantization

Multimodal

VisualBERT: A Simple and Performant Baseline for Vision and Language
Mapping Navigation Instructions to Cont. Control Actions with Position-Visitation Pred.
Early Fusion for Goal Directed Robotic Vision
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training Paradigm
Blockwise Streaming Transformer for Spoken Language Understanding and Simultaneous Speech Translation
DeeCap: Dynamic Early Exiting for Efficient Image Captioning
MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition
EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge Distillation and Modal-adaptive Pruning
Long-Short Transformer: Efficient Transformers for Language and Vision

Vision / Robotics

Architecture-specific tricks: CNNs

Architecture-specific tricks: Softmax

Efficient softmax approximation for GPUs

Architecture-specific tricks: Embeddings/inputs

Task-specific tricks

Architecture-specific tricks: Transformers

Speech

Accelerating training

Carbon footprint and alternative power sources