cagataydev
/

gr00t-fruit-6k

@@ -1,144 +1,93 @@
-# GR00T Fruit-6K: Robotics Vision-Action Model
-This repository contains a fine-tuned GR00T (N1.5-3B) model trained on fruit manipulation tasks, optimized at 6,000 training steps.
-## Model Overview
-- **Base Model**: NVIDIA GR00T N1.5-3B (General-purpose Robotics 00 Transformer)
-- **Training Steps**: 6,000 (optimal checkpoint based on evaluation analysis)
-- **Task**: Fruit manipulation and handling using robotic arm
-- **Dataset**: Wholettheducksout dataset with single-arm configuration
-- **Model Size**: ~7.58 GB total model weights
-## Key Training Metrics
-- **Final Training Loss**: 0.036353
-- **Training Configuration**: Single-arm embodiment with front and wrist camera setup
-- **Action Dimension**: 32 (single arm + gripper control)
-- **Vision Input**: Dual-camera setup (640x480 resolution, 30 FPS)
-- **Action Horizon**: 16 timesteps
-- **Diffusion Steps**: 4 inference timesteps
-## Architecture Details
-### Action Head Configuration
-- **Diffusion Model**: 16 layers, 32 attention heads
-- **Hidden Size**: 1024
-- **Cross-attention Dimension**: 2048
-- **Backbone Embedding**: 2048 dimensions
-- **State/Action Encoding**: Multi-layer projections
-### Vision Backbone
-- **Eagle Model**: Qwen3.1-7B + SigLIP-400M hybrid architecture
-- **Visual Layers**: 27 encoder layers with self-attention
-- **Language Model**: 12 layers with RMSNorm and SwiGLU activation
-- **Flash Attention**: Enabled for efficient processing
-## Files Structure
 ```
-checkpoint-6000/
-├── config.json                     # Model configuration
-├── model-00001-of-00002.safetensors # Model weights (part 1)
-├── model-00002-of-00002.safetensors # Model weights (part 2)
-├── model.safetensors.index.json    # Weight mapping index
-├── trainer_state.json              # Training state and metrics
-├── optimizer.pt                    # Optimizer state
-├── scheduler.pt                    # Learning rate scheduler
-├── rng_state.pth                   # Random number generator state
-└── experiment_cfg/
-    └── metadata.json               # Embodiment and modality configuration
-tensorboard_logs/
-└── Oct17_23-05-33_ip-172-31-3-77/
-    └── events.out.tfevents.*       # TensorBoard training metrics
 ```
-## Training Analysis
-Based on comprehensive evaluation, the 6K checkpoint demonstrates superior generalization compared to longer-trained models (200K steps). Key findings:
-### Why 6K Steps is Optimal
-1. **Balanced Learning**: Model learned general patterns without memorizing specific examples
-2. **Generalization**: Better performance on unseen test scenarios
-3. **Training Efficiency**: Optimal compute-to-performance ratio
-4. **Overfitting Avoidance**: Stopped before the model began fitting training noise
-### Training Loss Evolution
-- **Initial Rapid Learning** (0-2K steps): Loss dropped from 0.778 to ~0.2
-- **Steady Refinement** (2K-5K steps): Gradual improvement to ~0.05
-- **Fine-tuning Phase** (5K-6K steps): Final optimization to 0.036
 ## Usage
-### Loading the Model
 ```python
-from transformers import AutoModelForCausalLM, AutoTokenizer
-# Load the fine-tuned 6K checkpoint
-model = AutoModelForCausalLM.from_pretrained("cagataydev/gr00t-fruit-6k", subfolder="checkpoint-6000")
 ```
-### TensorBoard Visualization
-To view the training metrics:
-```bash
-# Clone the repository
-git clone https://huggingface.co/cagataydev/gr00t-fruit-6k
-cd gr00t-fruit-6k
-# Launch TensorBoard
-tensorboard --logdir=tensorboard_logs/
-```
-Then navigate to `http://localhost:6006` to view:
-- Training loss curves
-- Learning rate schedules
-- Gradient norms
-- Step-by-step training progress
-## Evaluation Metrics
-The model was evaluated against longer-trained variants and showed:
-- **Superior test performance** vs 200K step model
-- **Efficient training curve** with clear convergence
-- **Stable gradient norms** throughout training
-- **Optimal stopping point** identified at 6K steps
-## Embodiment Configuration
-- **State Space**: 6D (5D single arm + 1D gripper)
-- **Action Space**: 6D (5D single arm + 1D gripper)
-- **Vision Modalities**: Front camera + wrist camera
-- **Control Frequency**: 30 Hz
-- **Planning Horizon**: 16 timesteps
-## Technical Specifications
-- **Model Type**: `gr00t_n1_5`
-- **Compute Type**: `bfloat16`
-- **Model Precision**: `float32`
-- **Flash Attention**: Enabled
-- **Vision Tuning**: Enabled (backbone frozen, visual layers tuned)
-- **Diffusion Inference**: 4 timesteps with noise scheduling
-## Performance Characteristics
-This 6K checkpoint represents the optimal balance between:
-- **Learning Capability**: Sufficient training to master fruit manipulation
-- **Generalization**: Avoids overfitting to specific training examples
-- **Computational Efficiency**: Minimal training time for maximum performance
-- **Deployment Readiness**: Stable, production-ready model weights
-## Citation
-If you use this model in your research, please consider citing the original GR00T paper and this fine-tuned variant.
----
-**Created by**: cagataydev
-**Training Date**: October 2024
-**Optimization**: 6K steps identified as optimal through systematic evaluation

+---
+license: apache-2.0
+tags:
+- robotics
+- embodied-ai
+- fruit-manipulation
+- gr00t
+- nvidia
+- pytorch
+- fine-tuned
+datasets:
+- aaronsu11/so101_fruit
+library_name: transformers
+pipeline_tag: robotics
+base_model: nvidia/GR00T-N1.5-3B
+model_type: gr00t
+language:
+- en
+---
+# GR00T Fruit Manipulation Model
+## Model Description
+This is a GR00T model fine-tuned for fruit manipulation tasks. The model has been trained for 6,000 steps on fruit handling and manipulation scenarios.
+## Training Details
+- **Model Architecture**: GR00T-N1.5-3B
+- **Training Steps**: 6,000
+- **Training Duration**: ~2 hours
+- **Batch Size**: 32
+- **Data Configuration**: so100_dualcam
+- **Embodiment**: New embodiment configuration
+## Dataset
+This model was trained using the **so101_fruit** dataset, which contains fruit manipulation demonstrations.
+**Original Dataset Source**: [https://huggingface.co/datasets/aaronsu11/so101_fruit](https://huggingface.co/datasets/aaronsu11/so101_fruit)
+Please cite the original dataset when using this model:
 ```
+@dataset{aaronsu11_so101_fruit,
+  title={SO101 Fruit Dataset},
+  author={aaronsu11},
+  url={https://huggingface.co/datasets/aaronsu11/so101_fruit},
+  year={2024}
+}
 ```
+## Capabilities
+This model is designed for:
+- Fruit handling and manipulation tasks
+- Object grasping and placement
+- Robotic manipulation in kitchen/food preparation scenarios
 ## Usage
+Load the model using the standard GR00T inference pipeline:
 ```python
+# Example usage with GR00T inference
+from gr00t_inference import GR00TModel
+model = GR00TModel.from_pretrained("cagataydev/gr00t-fruit-6k")
+# Use for fruit manipulation tasks
 ```
+## Model Files
+The repository contains:
+- `model-00001-of-00002.safetensors` & `model-00002-of-00002.safetensors`: Model weights
+- `config.json`: Model configuration
+- `model.safetensors.index.json`: Model index
+- `trainer_state.json`: Training state information
+- `training_args.bin`: Training arguments
+## Training Infrastructure
+- **Platform**: Ubuntu
+- **Compute**: Single GPU
+- **Framework**: GR00T training pipeline
+- **Checkpoints**: Saved every 2,000 steps
+## License
+Please refer to the original dataset license and GR00T model license for usage terms.
+## Acknowledgments
+Special thanks to the creators of the original SO101 Fruit dataset for providing high-quality training data for robotic manipulation research.

trainer_state.json CHANGED Viewed

@@ -4208,15 +4208,6 @@
       "learning_rate": 7.594339912486703e-12,
       "loss": 0.0155,
       "step": 6000
-    },
-    {
-      "epoch": 4.87012987012987,
-      "step": 6000,
-      "total_flos": 0.0,
-      "train_loss": 0.036353461609532435,
-      "train_runtime": 6781.7376,
-      "train_samples_per_second": 28.311,
-      "train_steps_per_second": 0.885
     }
   ],
   "logging_steps": 10,

       "learning_rate": 7.594339912486703e-12,
       "loss": 0.0155,
       "step": 6000
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53b2f21ba255d343422c9703b7275bf05abe3dd421dd558ee4637405fe6f0c22
-size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e1039c945ace050bc2c045345c6c9addb640349becd4812d2abb5daf8f02feb
+size 129