VLA Stack

Vision-Language-Action for Robotics

The Vision-Language-Action Stack

A living reference of foundational architectures, rigorous validation strategies, and deploying robot foundation models.

s ∈ S

Scene Encoding

P(a|s,l)

Reasoning

a ∈ A

Control Policies

a* = arg max_a P(a | s, l)

Core concepts and problem formulation

Model designs and network topologies

Dataset construction and curation

Optimization and learning methods

Metrics and benchmarking protocols

Production systems and scaling

Real-world use cases

Open problems and frontiers