Physical AI Data Collection

How to Collect Warehouse Robot Data for Training Physical AI Systems

Warehouse robot data collection requires a synchronized sensor rig (RGB-D cameras, LiDAR, IMU), a task taxonomy mapping manipulation and navigation primitives to observation-action pairs, a ROS2-based recording pipeline capturing 10-20 Hz telemetry, and post-processing into RLDS or HDF5 formats. Successful datasets span 50+ SKU variants, 5+ lighting conditions, and 500+ episodes per task family to support policy generalization across real-world warehouse variability.

Updated 2025-06-15

By truelabel

Reviewed by truelabel · Jun 15, 2025

warehouse robot data collection

List Your Warehouse Dataset on Truelabel How sourcing works

Quick facts

Difficulty: Intermediate
Audience: Physical AI data engineers
Last reviewed: 2025-06-15

Why Warehouse Environments Demand Purpose-Built Training Data

Warehouse robotics operate under constraints absent from kitchen or laboratory settings: 10,000+ SKU diversity, reflective packaging that defeats standard RGB segmentation, dynamic human-robot interaction zones under ISO 15066 collaborative safety limits, and multi-robot coordination across 200,000+ square-foot facilities^[1]. Off-the-shelf datasets like EPIC-KITCHENS or CALVIN capture manipulation primitives but lack the SKU variability, conveyor dynamics, and fleet telemetry required for warehouse deployment.

Warehouse-specific data challenges include specular reflection from shrink-wrapped pallets (requiring polarized imaging or structured light), occlusion in dense bin-picking scenarios (demanding multi-view fusion), and the reality gap between simulation and physical wear on conveyor belts, shelf deformation, and label degradation. Scale AI's physical AI data engine reports that 40% of warehouse manipulation failures trace to training data that underrepresented edge-case object poses^[2].

Task taxonomy breadth determines policy generalization. A production dataset must cover pick-and-place (shelf-to-tote, tote-to-conveyor), bin picking (single-item, multi-item with collision avoidance), palletizing (mixed-case stacking with stability constraints), depalletizing (layer-by-layer unwrap), package scanning (barcode + RFID fusion), sortation (divert-to-lane decisions), and AMR navigation (static + dynamic obstacle avoidance, elevator transitions, dock door queuing). Each task family requires 500+ episodes to capture intra-task variance^[3].

Warehouse data buyers prioritize provenance and licensing clarity. Truelabel's data provenance framework tracks collector identity, facility consent, and per-episode metadata (SKU IDs, lighting config, robot serial number) to satisfy procurement due diligence and model auditing requirements under emerging AI regulations.

Define Your Task Taxonomy and Data Specification

Start with a structured task taxonomy that enumerates every manipulation and navigation primitive your policy must execute. For manipulation: single-item pick (known pose), single-item pick (unknown pose requiring active perception), multi-item bin picking (collision-aware grasp sequencing), mixed-case palletizing (stability heuristics), depalletizing (peel-layer logic), and conveyor singulation (dynamic interception). For navigation: waypoint following, dynamic obstacle avoidance, human-aware path planning (ISO 15066 speed/separation monitoring), elevator entry/exit, and dock door queuing.

For each task, specify the observation space: which cameras (wrist-mounted RGB-D, overhead fisheye, gantry-mounted LiDAR), resolution (typically 640×480 for real-time inference, 1280×720 for offline training), frame rate (10-20 Hz for manipulation, 5-10 Hz for navigation), and whether depth/point-cloud data is required. Specify the action space: Cartesian end-effector deltas (dx, dy, dz, droll, dpitch, dyaw) vs. joint position targets, gripper command (continuous width 0-80mm or binary open/close), and control frequency. RT-1 uses 7-DOF Cartesian actions at 3 Hz; DROID uses joint positions at 10 Hz^[4].

Create a formal data specification document covering: target model architecture (transformer, diffusion policy, behavior cloning), exact input tensor shapes, required coordinate frames (world, base_link, end_effector, camera_optical), object categories with unique SKU IDs, environment configuration parameters (shelf heights 1.2-2.4m, aisle widths 2.5-3.5m, conveyor speeds 0.3-0.6 m/s), and minimum diversity requirements (50+ SKU models, 5 lighting conditions from 200 lux to 800 lux, 3 shelf configurations). Share this document in a version-controlled repository (Google Docs, Notion, or a Git-backed markdown file) so all collectors reference a single source of truth.

Map to existing taxonomies where possible. The Open X-Embodiment dataset uses a standardized action schema (7-DOF delta + gripper) that 22 robot platforms adopted, enabling cross-embodiment transfer^[3]. If your warehouse tasks align with Open X-Embodiment primitives, adopt their schema to unlock pre-trained model checkpoints and reduce training data volume by 30-50%.

Design and Calibrate Your Sensor Rig

Warehouse sensor rigs balance coverage, cost, and compute. A minimal rig for manipulation includes a wrist-mounted RGB-D camera (Intel RealSense D435i, Stereolabs ZED 2i) providing 640×480 RGB + depth at 30 Hz, plus an overhead fisheye camera (180° FOV) capturing workspace context. For navigation, add a 2D LiDAR (SICK TiM571, Hokuyo UST-10LX) at 0.5m height for obstacle detection, and optionally a 3D LiDAR (Velodyne VLP-16, Ouster OS1-64) for elevation mapping in multi-floor facilities.

Extrinsic calibration is non-negotiable. Use a ChArUco board (OpenCV's charuco module) to compute camera-to-robot transforms via hand-eye calibration (Tsai-Lenz or Park's method). For multi-camera rigs, perform pairwise calibration using overlapping AprilTag grids, then solve the global pose graph with g2o or Ceres. Store calibration matrices in a YAML file versioned alongside your dataset; RLDS episodes embed calibration metadata in the `camera_extrinsics` field^[5].

Temporal synchronization prevents action-observation misalignment. Hardware-trigger all cameras from a common clock (PTP or GPS disciplined oscillator for <1ms jitter), or use software timestamps with NTP-synced clocks and post-hoc interpolation. ROS2's `message_filters::TimeSynchronizer` aligns messages within a 50ms window; for tighter sync, use a hardware trigger board (Basler Dart daisy-chain, FLIR Blackfly GPIO). MCAP logs preserve nanosecond timestamps and support post-hoc re-synchronization via linear interpolation^[6].

Sensor-specific tuning for warehouse conditions: disable auto-exposure on RGB-D cameras (fixed exposure 10-15ms prevents motion blur), enable HDR mode for high-contrast scenes (bright dock doors + dark aisles), use polarizing filters to reduce specular reflection from shrink wrap, and mount IMUs (RealSense D435i's built-in IMU or external VectorNav VN-100) to capture base vibration for navigation odometry correction. Scale AI's Universal Robots partnership demonstrated that IMU-augmented datasets reduced sim-to-real transfer error by 18%^[7].

Build the Recording Pipeline with Synchronization

A production recording pipeline captures multi-modal telemetry at 10-20 Hz: RGB images, depth maps, point clouds, robot joint states, end-effector poses, gripper commands, base odometry, LiDAR scans, and task-level annotations (episode start/end, success/failure, SKU IDs). ROS2 is the de facto standard; use `rosbag2` to record all topics, then convert to MCAP for efficient storage and cross-platform replay^[6].

Pipeline architecture: a central recording node subscribes to all sensor topics, synchronizes messages via `message_filters::ApproximateTimeSynchronizer` (50ms tolerance), and writes to disk in real-time. For high-bandwidth rigs (3 RGB-D cameras + LiDAR = 150 MB/s), use NVMe SSDs and enable `rosbag2`'s LZ4 compression (3:1 ratio, negligible CPU overhead). For fleet deployments, stream compressed bags to a central NAS over 10GbE; DROID collected 76,000 episodes across 8 sites using this architecture^[4].

Real-time quality monitoring prevents bad data from entering the dataset. Implement automated checks: camera frame rate (drop episodes if <90% of expected frames arrive), depth validity (flag episodes with >20% invalid pixels), robot state continuity (detect joint encoder glitches), and action magnitude bounds (reject episodes with physically implausible commands). Display a live dashboard (RViz, Foxglove Studio) showing camera feeds, robot state, and quality metrics so operators can abort and restart failed episodes immediately.

Episode segmentation logic depends on task type. For manipulation: start recording when the gripper closes on an object, end when the object reaches the target zone or after 60 seconds (timeout). For navigation: start at waypoint dispatch, end at goal arrival or collision. Embed episode metadata in the bag file's custom fields: `task_id`, `sku_id`, `lighting_condition`, `operator_id`, `success` (boolean), and `failure_mode` (enum: timeout, collision, grasp_failure, none). This metadata enables stratified sampling during training (oversample rare failure modes) and post-hoc analysis (which SKUs have <80% success rate?).

Design Collection Protocols for Each Task Family

Manipulation protocols must capture the full distribution of object poses, gripper approaches, and failure modes. For single-item pick: collect 30 episodes per SKU across 5 shelf heights (0.6m, 1.0m, 1.4m, 1.8m, 2.2m), 3 orientations (front-facing, side-facing, upside-down), and 2 occlusion levels (isolated, partially occluded by neighbor). For multi-item bin picking: collect 50 episodes per bin configuration (10, 15, 20 items) with random SKU mixes. For palletizing: collect 100 episodes per pallet pattern (column stack, interlocked, mixed-case) with stability scoring (measure pallet tilt after completion).

Navigation protocols require diverse obstacle configurations and human interaction scenarios. For static obstacle avoidance: place 5-10 obstacles (boxes, pallets, cones) in random aisle positions, collect 20 episodes per layout. For dynamic obstacles: have 2-3 humans walk predetermined paths (crossing, following, oncoming), collect 30 episodes per scenario. For elevator transitions: collect 15 episodes per elevator (entry, ride, exit) with door timing variance. Open X-Embodiment recommends 500+ episodes per task family to achieve 85% success rate on held-out test environments^[3].

Lighting and environmental variance is critical for generalization. Collect data across 5 lighting conditions: dawn (200 lux), overcast day (400 lux), sunny day with shadows (600 lux), artificial warehouse lighting (500 lux), and dusk (250 lux). Vary background clutter (empty shelves, 50% full, 100% full), floor conditions (clean, dusty, wet from cleaning), and ambient noise (quiet, forklift traffic, conveyor hum). Domain randomization in simulation is a partial substitute, but real-world variance remains essential for robust policies^[8].

Teleoperation vs. autonomous collection: early-stage datasets use teleoperation (joystick, VR controller, or kinesthetic teaching) to demonstrate desired behaviors. ALOHA and DROID are teleoperation-first datasets that enabled rapid policy bootstrapping^[4]. Once a baseline policy achieves 60-70% success, switch to autonomous collection with human intervention (operator takes over on failure, episode is labeled `intervention=True`). This hybrid approach scales to 10,000+ episodes while maintaining data quality.

Execute Collection with Real-Time Quality Monitoring

Operator training determines dataset consistency. Train collectors on: task execution standards (grasp approach angles, navigation clearance margins), teleoperation interface (button mappings, dead-man switch), episode abort criteria (camera occlusion, robot fault, safety violation), and metadata logging (SKU ID entry, lighting condition selection). Provide a 2-page quick-reference card and require 10 supervised practice episodes before independent collection. DROID trained 13 operators across 8 sites using a 4-hour onboarding protocol^[4].

Live quality dashboard surfaces issues before they corrupt the dataset. Display: camera frame rate (target 30 Hz, alert if <27 Hz), depth coverage (% valid pixels, alert if <80%), robot joint velocity (alert if exceeds safety limits), gripper force (alert if exceeds 50N), and episode duration (alert if >2× expected). Use color-coded indicators (green/yellow/red) and audio alerts for critical faults. Foxglove Studio provides a web-based dashboard that operators access via tablet while teleoperating.

Failure mode logging is as valuable as success data. When an episode fails, require the operator to select a failure mode from a predefined taxonomy: `grasp_slip`, `collision_obstacle`, `collision_self`, `timeout`, `sensor_fault`, `robot_fault`, `human_intervention`, `other`. Store this in episode metadata. Policies trained on failure-labeled data can learn recovery behaviors; RT-2 used failure-mode conditioning to improve robustness by 22%^[9].

Daily data review catches systematic issues. At end-of-shift, review 10 random episodes: play back camera feeds at 2× speed, check depth map quality, verify metadata accuracy (SKU IDs match visual inspection), and confirm action magnitudes are plausible. Flag any episodes for re-collection. Maintain a collection log (spreadsheet or database) tracking: date, operator, task, episodes collected, episodes flagged, and notes. This log becomes the dataset's audit trail for provenance documentation.

Post-Process, Validate, and Format for Training

Post-processing pipeline transforms raw bags into training-ready datasets. Step 1: extract images and depth maps from bag files using `rosbag2` Python API or MCAP readers. Step 2: re-synchronize multi-modal streams via linear interpolation (align all sensors to robot state timestamps). Step 3: apply calibration transforms to project depth into 3D point clouds and transform all data into a common coordinate frame (typically `base_link`). Step 4: compute derived features (gripper aperture from joint angles, end-effector velocity from pose deltas, obstacle distance from LiDAR scans).

Data validation catches collection errors before training. Automated checks: episode length (reject if <5 seconds or >180 seconds), action continuity (reject if any action delta exceeds 3× median), image brightness (reject if mean pixel value <20 or >235), depth validity (reject if >30% invalid pixels), and metadata completeness (reject if any required field is null). Manual validation: sample 5% of episodes, play back at 2× speed, verify task execution matches metadata labels. BridgeData V2 rejected 12% of collected episodes during validation^[10].

Format conversion depends on target framework. For LeRobot, convert to HDF5 with the LeRobot schema: `/observations/images/cam_wrist` (T×H×W×3 uint8), `/observations/qpos` (T×7 float32), `/actions` (T×7 float32), `/episode_data_index` (start/end indices per episode)^[11]. For RLDS, use `tfds.core.DatasetBuilder` to create a TensorFlow Dataset with nested dicts: `{'observation': {'image':..., 'state':...}, 'action':..., 'reward':..., 'is_terminal':...}`^[5]. For PyTorch, use Parquet files with one row per timestep and episode_id as a partition key.

Dataset documentation is mandatory for procurement. Create a datasheet following Gebru et al.'s template: motivation (why this dataset was created), composition (task breakdown, episode counts, SKU diversity), collection process (sensor rig, operators, facilities), preprocessing (calibration, filtering, augmentation), uses (intended applications, out-of-scope uses), distribution (license, access method), and maintenance (update cadence, contact info)^[12]. Host documentation alongside the dataset (README.md in the dataset repo, or a dedicated webpage). Truelabel's marketplace requires a completed datasheet for every listed dataset.

Fleet-Level Data Aggregation for Multi-Robot Deployments

Fleet data architecture centralizes telemetry from 10-100+ robots. Each robot runs a local recording node that writes compressed bags to onboard storage (1TB NVMe SSD, 8-12 hours capacity). A background sync process uploads completed episodes to a central object store (S3, GCS, Azure Blob) over WiFi during idle periods or via Ethernet at charging stations. The central store organizes data by: `facility_id/robot_id/date/episode_id.mcap`. DROID aggregated 76,000 episodes from 8 facilities using this architecture^[4].

Cross-robot normalization handles embodiment differences. If your fleet includes multiple robot models (e.g., UR5e, UR10e, Franka Emika Panda), normalize action spaces to a common representation: Cartesian end-effector deltas in the world frame, with model-specific inverse kinematics applied at inference time. Store robot-specific metadata (URDF, joint limits, gripper specs) in a `robot_config` table so training code can filter or weight episodes by embodiment. Open X-Embodiment trained a single policy on 22 robot types by normalizing to 7-DOF Cartesian actions^[3].

Temporal aggregation for long-horizon tasks. Warehouse workflows span minutes (navigate to shelf, pick 10 items, navigate to packing station), but policies train on 10-20 second episodes. Segment long trajectories into sub-episodes at natural boundaries (grasp completion, waypoint arrival), then add a `parent_episode_id` field linking sub-episodes. At training time, sample sub-episodes uniformly or use hierarchical RL (high-level policy selects sub-tasks, low-level policy executes). RT-1 used 3-second sub-episodes with task-conditioning tokens^[13].

Privacy and compliance for human-in-the-loop data. Warehouse datasets often capture human workers in camera frames. Apply face blurring (YOLO-based face detection + Gaussian blur) and body pose anonymization (replace humans with bounding boxes or skeletal overlays) in post-processing. Store a `contains_humans` flag per episode and provide a filtered dataset version with all human-containing episodes removed. Document data handling in your datasheet and obtain facility consent under GDPR Article 7 or equivalent local regulations^[14]. Truelabel's marketplace requires privacy compliance attestation for all human-in-the-loop datasets.

Warehouse Task Families and Data Requirements

Pick-and-place is the most common warehouse manipulation primitive. Data requirements: 50+ SKU models spanning size (5cm to 50cm), weight (50g to 10kg), and material (cardboard, plastic, metal, fabric). Collect 30 episodes per SKU across 5 shelf heights and 3 orientations. Total: 50 SKUs × 30 episodes = 1,500 episodes minimum. RT-1 trained on 130,000 pick-and-place episodes to achieve 97% success on novel objects^[13].

Bin picking requires multi-object reasoning and collision avoidance. Data requirements: 10 bin configurations (10, 15, 20 items per bin) with random SKU mixes, 50 episodes per configuration. Capture both successful grasps and failed attempts (grasp slip, collision with neighbor). Annotate each episode with: items_in_bin (list of SKU IDs), target_item (SKU ID), grasp_success (boolean), and failure_mode (if applicable). Total: 10 configs × 50 episodes = 500 episodes minimum.

Palletizing and depalletizing involve stability reasoning and multi-step planning. For palletizing: collect 100 episodes per pallet pattern (column stack, interlocked, mixed-case) with 20-40 boxes per pallet. Measure pallet stability post-completion (tilt angle, compression). For depalletizing: collect 50 episodes per pallet type, capturing layer-by-layer unwrap with shrink-wrap removal. Total: 3 patterns × 100 episodes + 3 types × 50 episodes = 450 episodes minimum.

Navigation datasets require diverse obstacle and human interaction scenarios. Data requirements: 20 episodes per static obstacle layout (5-10 obstacles, 10 layouts = 200 episodes), 30 episodes per dynamic scenario (human crossing, following, oncoming; 3 scenarios = 90 episodes), 15 episodes per elevator (3 elevators = 45 episodes). Annotate with: obstacle_count, human_count, collision_occurred (boolean), and path_efficiency (actual_distance / optimal_distance). Total: 335 episodes minimum. Open X-Embodiment recommends 500+ navigation episodes for robust policies^[3].

Warehouse-Specific Data Challenges and Solutions

Reflective packaging defeats standard RGB segmentation. Shrink-wrapped pallets, glossy cardboard, and metallic labels create specular highlights that confuse vision models. Solutions: use polarizing filters on cameras (reduces specular reflection by 60-80%), add structured light projectors (Intel RealSense's IR pattern), or train on synthetic data with physics-based rendering of reflective materials. Domain randomization with specular BRDF parameters improves real-world transfer^[8].

SKU diversity at scale. A typical warehouse stocks 10,000+ SKUs; collecting 30 episodes per SKU is infeasible. Solutions: cluster SKUs by visual similarity (CLIP embeddings + k-means), collect dense data on 50 representative SKUs per cluster, then use few-shot learning (5-10 episodes) for new SKUs. RT-2 demonstrated zero-shot generalization to novel objects by pre-training on web images^[9].

Lighting variability across facilities and times of day. Warehouses have mixed lighting: skylights (variable with weather), high-bay LEDs (500-800 lux), and dock doors (10,000+ lux spikes). Solutions: collect data across 5 lighting conditions (dawn, overcast, sunny, artificial, dusk), use HDR imaging (bracket 3 exposures, merge in post), or apply photometric augmentation during training (brightness ±30%, contrast ±20%). BridgeData V2 used photometric augmentation to reduce lighting-related failures by 35%^[10].

Safety compliance under ISO 15066 for collaborative robots. Human-robot interaction zones require speed and separation monitoring: robots must slow to <250 mm/s when humans are within 0.5m, stop if contact occurs. Data requirements: collect 30 episodes per human proximity scenario (approaching, stationary, departing) with robot speed and human distance logged at 10 Hz. Annotate safety violations (speed exceeded, separation violated) for policy training with safety constraints. CloudFactory's industrial robotics solutions emphasize safety-compliant data collection protocols^[15].

Storage Formats and Tooling for Warehouse Datasets

MCAP is the preferred format for multi-modal warehouse data. MCAP is a container format that stores timestamped messages (images, point clouds, robot state) with schema definitions, supports random access, and compresses 3-5× better than raw rosbags^[6]. MCAP files are self-describing (schemas embedded) and cross-platform (readers in Python, C++, Rust, TypeScript). For a 1-hour warehouse collection session (3 RGB-D cameras + LiDAR + robot state at 10 Hz), expect 50-80 GB raw, 15-25 GB MCAP-compressed.

HDF5 is common for manipulation datasets. LeRobot uses HDF5 with a standardized schema: `/observations/images/cam_wrist` (T×H×W×3 uint8), `/observations/qpos` (T×7 float32), `/actions` (T×7 float32), `/episode_data_index` (2×N int64 array of start/end indices)^[11]. HDF5 supports chunked storage (load episodes on-demand without reading entire file) and compression (gzip level 4 achieves 2-3× reduction with minimal CPU overhead). For a 500-episode manipulation dataset (30 seconds per episode, 640×480 RGB), expect 120-180 GB HDF5.

Parquet is optimal for tabular data and large-scale training. Apache Parquet is a columnar format that compresses 5-10× better than CSV and supports predicate pushdown (filter episodes by metadata without scanning entire file)^[16]. Store one row per timestep with columns: `episode_id`, `timestamp`, `image_path` (reference to separate image files), `qpos` (array), `action` (array), `metadata` (JSON). Partition by `episode_id` for efficient episode-level sampling. Hugging Face Datasets uses Parquet as its backing store.

Point cloud formats for LiDAR data. Point Cloud Library (PCL) defines PCD format (ASCII or binary), but it's inefficient for large datasets^[17]. Prefer LAS (ASPRS standard, widely supported) or compressed formats like LAZ (LAS + lossless compression, 5-10× smaller). For deep learning, convert point clouds to voxel grids or PointNet-compatible arrays (N×3 float32) and store in HDF5 or NumPy `.npz` files. PointNet processes raw point clouds without voxelization^[18].

Licensing and Provenance for Warehouse Datasets

License selection determines commercial viability. For open datasets, Creative Commons Attribution 4.0 (CC BY 4.0) permits commercial use with attribution; CC BY-NC 4.0 prohibits commercial use^[19]. For proprietary datasets, use a custom license specifying: permitted use cases (training, evaluation, not redistribution), attribution requirements, liability disclaimers, and termination clauses. RoboNet's dataset license permits academic and commercial use with citation^[20].

Provenance documentation answers: who collected this data, where, when, with what equipment, under what consent, and with what quality controls. Truelabel's provenance framework requires: collector identity (individual or organization), facility consent (signed agreement), collection dates, sensor rig specifications (make/model/calibration), operator training records, and per-episode metadata (task, SKU, success/failure). This documentation satisfies procurement due diligence and model auditing under EU AI Act Article 10 (data governance)^[21].

Consent and privacy for human-in-the-loop data. Warehouse datasets often capture workers in camera frames. Obtain facility-level consent (signed agreement with warehouse operator) and individual consent (workers sign release forms or opt-out). Apply face blurring and body anonymization in post-processing. Store a `contains_humans` flag per episode and provide a filtered dataset version. Document consent process in your datasheet. GDPR Article 7 requires explicit, informed, and revocable consent^[14].

Chain-of-custody tracking for high-stakes applications. For datasets used in safety-critical systems (autonomous forklifts, collaborative robots), maintain a tamper-evident audit log: SHA-256 hash of each episode file, timestamp of creation, collector signature (PGP or X.509 certificate), and any post-processing operations (calibration, filtering, augmentation). C2PA (Coalition for Content Provenance and Authenticity) provides a standard for embedding provenance metadata in media files^[22].

Training Pipeline Integration and Model Evaluation

Data loading for large-scale training. For HDF5 datasets, use `h5py` with chunked reads (load one episode at a time) and a multi-process DataLoader (PyTorch `num_workers=4-8`). For Parquet datasets, use `pyarrow` or `polars` with predicate pushdown (filter by `success=True` or `task_id='pick'`). For MCAP datasets, use MCAP Python readers with message filtering (subscribe to specific topics)^[6]. Expect 100-200 MB/s throughput on NVMe SSDs with 8-core CPUs.

Data augmentation for warehouse robustness. Apply: photometric (brightness ±30%, contrast ±20%, hue ±10°), geometric (random crop 90-100%, horizontal flip for symmetric tasks), temporal (random frame skip ±2 frames), and action noise (Gaussian noise σ=0.01 on action deltas). BridgeData V2 used aggressive augmentation to improve generalization by 28%^[10]. Avoid augmentations that break physics (vertical flip, extreme rotations).

Evaluation protocol for warehouse policies. Split data by: 80% train, 10% validation (same facility, different episodes), 10% test (held-out facility or SKU set). Report: success rate (% episodes reaching goal), collision rate (% episodes with robot-obstacle contact), path efficiency (actual distance / optimal distance for navigation), and grasp success rate (% grasps that lift object >5cm). Evaluate on 100+ test episodes per task family. RT-1 reported 97% success on 3,000 test episodes across 13 tasks^[13].

Sim-to-real validation for policies trained on mixed data. If your dataset includes simulation episodes (Isaac Sim, Gazebo, MuJoCo), evaluate sim-trained policies on real hardware and measure the reality gap: success rate delta (real vs. sim), action distribution shift (KL divergence), and failure mode differences. Zhao et al.'s sim-to-real survey reports that domain randomization reduces the reality gap by 40-60%^[23]. For warehouse tasks, real-world data remains essential for reflective packaging, worn surfaces, and human interaction.

Scaling to Production: Fleet Data Pipelines

Continuous data collection from deployed robots. Once a baseline policy achieves 70-80% success, deploy it to production and log all episodes (successful and failed) with human intervention flags. This creates a flywheel: policy improves → more autonomous episodes → larger dataset → better policy. Scale AI's data engine uses this approach to collect 1M+ episodes per year^[2].

Active learning prioritizes high-value episodes. Train a uncertainty estimator (ensemble disagreement, Monte Carlo dropout) to flag episodes where the policy is uncertain. Route these episodes to human review: if the policy failed, collect a human demonstration; if the policy succeeded, label as a hard negative. Encord Active provides active learning tools for robotics datasets^[24]. Active learning reduces labeling cost by 50-70% compared to random sampling.

Data versioning for reproducible training. Use DVC (Data Version Control), LakeFS, or Pachyderm to version datasets alongside code. Tag each dataset version with: collection dates, episode count, task breakdown, and quality metrics (success rate, mean episode length). When training a new model, pin to a specific dataset version (e.g., `warehouse_v2.3`) so results are reproducible. LeRobot uses Hugging Face Datasets' versioning (commit hashes) for reproducibility^[11].

Cost modeling for data collection ROI. A single warehouse robot collecting 8 hours/day at 10 episodes/hour generates 80 episodes/day, 1,600 episodes/month. At $50/hour operator cost (loaded), that's $400/day or $8,000/month for 1,600 episodes ($5/episode). Compare to outsourced data collection ($20-50/episode) or simulation ($0.10/episode but higher reality gap). For a 10,000-episode dataset, in-house collection costs $50K vs. $200-500K outsourced. Truelabel's marketplace offers pre-collected warehouse datasets at $10-30/episode, reducing time-to-deployment by 3-6 months.

Emerging Standards and Future-Proofing

RLDS (Reinforcement Learning Datasets) is becoming the standard for robot learning. RLDS defines a schema for episodic data (observation, action, reward, terminal) and provides TensorFlow Datasets builders for 50+ robotics datasets^[5]. RLDS episodes are self-describing (schemas embedded), support nested observations (multi-camera, proprioception), and integrate with TensorFlow/JAX training loops. Convert your warehouse dataset to RLDS to unlock pre-trained models and cross-dataset benchmarks.

LeRobot format is gaining traction for PyTorch users. LeRobot uses HDF5 with a standardized schema and provides dataset loaders, visualization tools, and pre-trained model checkpoints^[11]. LeRobot supports 20+ robot platforms and 15+ datasets (ALOHA, BridgeData, DROID). If your warehouse robots use PyTorch, adopt LeRobot format for ecosystem compatibility.

OpenLineage for data lineage tracking. OpenLineage is an open standard for tracking data pipelines: which datasets were used to train which models, what preprocessing was applied, and how data flowed through the system^[25]. Integrate OpenLineage into your collection pipeline to generate audit trails for model governance and regulatory compliance.

NVIDIA Cosmos for world model pre-training. NVIDIA Cosmos is a family of world foundation models pre-trained on 20M hours of video, including warehouse and logistics footage^[26]. Fine-tuning Cosmos on your warehouse dataset can reduce data requirements by 10× compared to training from scratch. Cosmos uses a video-diffusion architecture and outputs action-conditioned video predictions for model-based RL.

Use these to move from category-level context into specific task, dataset, format, and comparison detail.

Physical AI data providers: criteria and optionsRelated page Data provenance for physical AIRelated page RLDS format for robot training dataDelivery format detail Physical AI data marketplaceBuyer conversion page Sourcing egocentric warehouse videoRelated page Sourcing multi-view manipulationRelated page Sourcing rgbd manipulationRelated page Sourcing teleop warehouse dataRelated page

External references and source context

cloudfactory.com industrial robotics
ISO 15066 collaborative safety limits for human-robot interaction zones in warehouses
cloudfactory.com ↩
Scale AI: Expanding Our Data Engine for Physical AI
Scale AI reports 40% of warehouse manipulation failures trace to underrepresented training data
scale.com ↩
Open X-Embodiment: Robotic Learning Datasets and RT-X Models
Open X-Embodiment requires 500+ episodes per task family for 85% success rate
arXiv ↩
DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset
DROID dataset uses joint positions at 10 Hz and collected 76,000 episodes across 8 facilities
arXiv ↩
RLDS: an Ecosystem to Generate, Share and Use Datasets in Reinforcement Learning
RLDS episodes embed calibration metadata and define standard schema for episodic robot data
arXiv ↩
MCAP file format
MCAP logs preserve nanosecond timestamps and compress 3-5× better than raw rosbags
mcap.dev ↩
scale.com scale ai universal robots physical ai
Scale AI's Universal Robots partnership showed IMU-augmented datasets reduced sim-to-real error by 18%
scale.com ↩
Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World
Domain randomization with specular BRDF parameters improves real-world transfer for reflective surfaces
arXiv ↩
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
RT-2 used failure-mode conditioning to improve robustness by 22% and demonstrated zero-shot object generalization
arXiv ↩
BridgeData V2: A Dataset for Robot Learning at Scale
BridgeData V2 rejected 12% of episodes during validation and used photometric augmentation to reduce lighting failures by 35%
arXiv ↩
LeRobot: State-of-the-art Machine Learning for Real-World Robotics in Pytorch
LeRobot uses HDF5 with standardized schema for manipulation datasets and provides PyTorch loaders
arXiv ↩
Datasheets for Datasets
Gebru et al. datasheet template covers motivation, composition, collection, preprocessing, uses, and distribution
arXiv ↩
RT-1: Robotics Transformer for Real-World Control at Scale
RT-1 uses 7-DOF Cartesian actions at 3 Hz and trained on 130,000 episodes for 97% success
arXiv ↩
GDPR Article 7 — Conditions for consent
GDPR Article 7 requires explicit, informed, and revocable consent for personal data collection
GDPR-Info.eu ↩
cloudfactory.com industrial robotics
CloudFactory emphasizes safety-compliant data collection protocols for industrial robotics
cloudfactory.com ↩
Apache Parquet file format
Apache Parquet columnar format compresses 5-10× better than CSV and supports predicate pushdown
Apache Parquet ↩
Point Cloud Library documentation
Point Cloud Library defines PCD format but it is inefficient for large-scale datasets
Point Cloud Library ↩
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
PointNet processes raw point clouds without voxelization for 3D classification and segmentation
arXiv ↩
Attribution 4.0 International deed
Creative Commons Attribution 4.0 permits commercial use with attribution
Creative Commons ↩
RoboNet dataset license
RoboNet dataset license permits academic and commercial use with citation requirement
GitHub raw content ↩
Regulation (EU) 2024/1689 laying down harmonised rules on artificial intelligence
EU AI Act Article 10 requires data governance documentation for high-risk AI systems
EUR-Lex ↩
C2PA Technical Specification
C2PA provides standard for embedding tamper-evident provenance metadata in media files
C2PA ↩
Crossing the Reality Gap: A Survey on Sim-to-Real Transferability of Robot Controllers in Reinforcement Learning
Zhao et al. survey reports domain randomization reduces sim-to-real reality gap by 40-60%
arXiv ↩
encord.com active
Encord Active provides active learning tools that reduce labeling cost by 50-70% for robotics datasets
encord.com ↩
OpenLineage Object Model
OpenLineage standard tracks data pipelines for audit trails and regulatory compliance
OpenLineage ↩
NVIDIA Cosmos World Foundation Models
NVIDIA Cosmos world foundation models pre-trained on 20M hours of video including warehouse footage
NVIDIA Developer ↩

FAQ

How many episodes do I need to train a warehouse manipulation policy?

For single-task policies (e.g., pick-and-place), 500-1,000 episodes achieve 80-85% success on held-out test sets. For multi-task policies covering 5-10 warehouse primitives, 5,000-10,000 episodes are typical. RT-1 trained on 130,000 episodes to achieve 97% success across 13 tasks. If you use pre-trained models (RT-2, OpenVLA) or leverage simulation, you can reduce real-world data requirements by 50-70%. Active learning and data augmentation further reduce episode counts by prioritizing high-value data and increasing effective dataset size.

What sensor rig is sufficient for warehouse robot data collection?

A minimal rig includes a wrist-mounted RGB-D camera (Intel RealSense D435i or Stereolabs ZED 2i) at 640×480 resolution and 30 Hz, plus an overhead fisheye camera for workspace context. For navigation, add a 2D LiDAR (SICK TiM571) at 0.5m height. This rig costs $1,500-3,000 and captures sufficient data for manipulation and navigation policies. For advanced applications (bin picking, palletizing), add a second wrist camera for stereo depth or a 3D LiDAR (Velodyne VLP-16) for elevation mapping. Extrinsic calibration (hand-eye, multi-camera) is mandatory; use ChArUco boards and store calibration matrices in YAML files versioned with your dataset.

Should I use MCAP, HDF5, or Parquet for warehouse datasets?

Use MCAP for raw multi-modal telemetry (images, point clouds, robot state) during collection; it compresses 3-5× better than rosbags and supports random access. Convert to HDF5 for manipulation datasets (LeRobot schema) or Parquet for large-scale training (columnar format, 5-10× compression, predicate pushdown). HDF5 is ideal for episodic data with nested observations; Parquet is ideal for tabular data with metadata filtering. For point clouds, use LAZ (compressed LAS) or convert to PointNet-compatible arrays in HDF5. Store images separately (JPEG/PNG) and reference by path in Parquet to avoid file size bloat.

How do I handle SKU diversity in a 10,000+ SKU warehouse?

Cluster SKUs by visual similarity using CLIP embeddings and k-means (50-100 clusters). Collect dense data (30 episodes) on 50 representative SKUs per cluster, then use few-shot learning (5-10 episodes) for new SKUs within each cluster. RT-2 demonstrated zero-shot generalization to novel objects by pre-training on web images, reducing per-SKU data requirements by 80%. Alternatively, use synthetic data (Isaac Sim, Gazebo) with procedural SKU generation and domain randomization, then fine-tune on 100-200 real-world episodes per cluster. Document SKU coverage in your dataset datasheet (total SKUs, cluster breakdown, episodes per SKU).

What licensing should I use for a commercial warehouse dataset?

For open datasets, use Creative Commons Attribution 4.0 (CC BY 4.0) to permit commercial use with attribution, or CC BY-NC 4.0 to restrict to non-commercial use. For proprietary datasets, use a custom license specifying permitted use cases (training, evaluation, not redistribution), attribution requirements, liability disclaimers, and termination clauses. RoboNet uses a permissive academic/commercial license with citation requirement. If your dataset includes human workers, obtain facility-level and individual consent, apply face blurring, and document privacy compliance under GDPR Article 7 or equivalent regulations. Truelabel's marketplace requires license clarity and provenance documentation for all listed datasets.

How do I validate data quality before training?

Implement automated checks: episode length (5-180 seconds), action continuity (reject if deltas exceed 3× median), image brightness (mean pixel 20-235), depth validity (<30% invalid pixels), and metadata completeness (no null fields). Manually review 5% of episodes at 2× speed to verify task execution matches labels. Measure inter-annotator agreement for labeled data (Cohen's kappa >0.8 for binary labels, IoU >0.7 for bounding boxes). BridgeData V2 rejected 12% of collected episodes during validation. Use a live quality dashboard (Foxglove Studio) during collection to catch issues in real-time: camera frame rate, depth coverage, robot joint velocity, and gripper force. Store validation results in a collection log for audit trails.

Looking for warehouse robot data collection?

Specify modality, task, environment, rights, and delivery format. Truelabel matches you with vetted capture partners — every delivery includes consent artifacts and commercial licensing by default.

List Your Warehouse Dataset on Truelabel