DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Jim Fan

Director de Robótica y Científico Distinguido de NVIDIA. Co-Líder del laboratorio GEAR. Resolviendo AGI físico, un motor a la vez. Stanford Ph.D. 1er pasante de OpenAI.

Anunciamos DreamDojo: nuestro modelo de mundo interactivo y de código abierto que toma los controles de motor de robots y genera el futuro en píxeles. Sin motor, sin mallas, sin dinámicas creadas a mano. Es la Simulación 2.0. Es hora de que la robótica tome la amarga lección. El aprendizaje de robots en el mundo real está limitado por el tiempo, el desgaste, la seguridad y los reinicios. Si queremos que la IA Física se mueva a la velocidad de preentrenamiento, necesitamos un simulador que se adapte a la escala de preentrenamiento con la menor ingeniería humana posible. Nuestras ideas clave: (1) los videos egocéntricos humanos son una fuente escalable de física en primera persona; (2) las acciones latentes los hacen "legibles por robots" en diferentes hardware; (3) la inferencia en tiempo real desbloquea teleoperación en vivo, evaluación de políticas y planificación en tiempo de prueba *dentro* de un sueño. Nosotros preentrenamos con 44K horas de videos humanos: baratos, abundantes y recopilados sin robots en el circuito. Los humanos ya han explorado la combinatoria: agarramos, vertemos, doblamos, ensamblamos, fallamos, intentamos de nuevo—en escenas desordenadas, puntos de vista cambiantes, luz variable y cadenas de tareas de una hora—en una escala que ninguna flota de robots podría igualar. La pieza que falta: estos videos no tienen etiquetas de acción. Así que introducimos acciones latentes: una representación unificada inferida directamente de los videos que captura "qué cambió entre los estados del mundo" sin conocer el hardware subyacente. Esto nos permite entrenar con cualquier video en primera persona como si viniera con comandos de motor adjuntos. Como resultado, DreamDojo generaliza en cero disparos a objetos y entornos nunca vistos en ningún conjunto de entrenamiento de robots, porque los humanos los vieron primero. A continuación, postentrenamos en cada robot para adaptarlo a su hardware específico. Piénsalo como separar "cómo se ve y se comporta el mundo" de "cómo actúa este robot en particular." El modelo base sigue las reglas físicas generales, luego "se ajusta" a la mecánica única del robot. Es un poco como cargar un nuevo personaje y activos de escena en Unreal Engine, pero se hace a través de descenso de gradiente y se generaliza mucho más allá del conjunto de datos de postentrenamiento. Un simulador de mundo solo es útil si funciona lo suficientemente rápido como para cerrar el ciclo. Entrenamos una versión en tiempo real de DreamDojo que funciona a 10 FPS, estable durante más de un minuto de despliegue continuo. Esto desbloquea posibilidades emocionantes: - Teleoperación en vivo *dentro* de un sueño. Conecta un controlador de VR, transmite acciones a DreamDojo y teleopera un robot virtual en tiempo real. Demostramos esto en Unitree G1 con un visor PICO y una RTX 5090. - Evaluación de políticas. Puedes evaluar un punto de control de política en DreamDojo en lugar de en el mundo real. Las tasas de éxito simuladas se correlacionan fuertemente con los resultados del mundo real - lo suficientemente precisas como para clasificar puntos de control sin quemar un solo motor. - Planificación basada en modelos. Muestra múltiples propuestas de acción → simula todas en paralelo → elige el mejor futuro. Ganancias del +17% en éxito en el mundo real desde el principio en una tarea de empaquetado de frutas. ¡Abrimos todo el código fuente! Pesos, código, conjunto de datos de postentrenamiento, conjunto de evaluación y un documento técnico con toneladas de detalles para reproducir. DreamDojo se basa en NVIDIA Cosmos, que también es de peso abierto. 2026 es el año de los Modelos de Mundo para la IA física. Queremos que construyas con nosotros. ¡Feliz escalado! Enlaces en el hilo:

Parte superior

Clasificación

Favoritos