Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
Director de Robótica y Científico Distinguido de NVIDIA. Co-Líder del laboratorio GEAR. Resolviendo AGI físico, un motor a la vez. Stanford Ph.D. 1er pasante de OpenAI.
Entrenamos un humanoide con manos hábiles de 22 grados de libertad para ensamblar modelos de coches, operar jeringas, clasificar cartas de póker, doblar/enrollar camisetas, todo aprendido principalmente de más de 20,000 horas de video egocéntrico humano sin robots en el bucle.
Los humanos son la encarnación más escalable del planeta. Descubrimos una ley de escalado logarítmico casi perfecta (R² = 0.998) entre el volumen de video humano y la pérdida de predicción de acción, y esta pérdida predice directamente la tasa de éxito del robot real.
Los robots humanoides serán el objetivo final, porque son la forma práctica con una brecha de encarnación mínima respecto a los humanos. Llámalo la Lección Amarga del hardware robótico: la similitud cinemática nos permite simplemente redirigir el movimiento de los dedos humanos a las articulaciones de las manos hábiles del robot. No se necesitan incrustaciones aprendidas, ni algoritmos de transferencia sofisticados. El movimiento relativo de la muñeca + las acciones de los dedos de 22 grados de libertad redirigidas sirven como un espacio de acción unificado que se mantiene desde el preentrenamiento hasta la ejecución del robot.
Nuestra receta se llama "EgoScale":
- Preentrenar GR00T N1.5 en 20K horas de video humano, entrenar a medio camino con solo 4 horas (!) de datos de juego de robot con manos Sharpa. 54% de ganancias sobre el entrenamiento desde cero en 5 tareas altamente hábiles.
- El resultado más sorprendente: una *única* demostración de teleoperación es suficiente para aprender una tarea nunca antes vista. Nuestra receta permite una eficiencia extrema de datos.
- Aunque preentrenamos en el espacio de articulaciones de manos de 22 grados de libertad, la política se transfiere a un Unitree G1 con manos de tri-dedo de 7 grados de libertad. Más del 30% de ganancias sobre el entrenamiento solo con datos de G1.
El camino escalable hacia la destreza robótica nunca fueron más robots. Siempre fuimos nosotros.
Profundizaciones en el hilo:
458
Anunciamos DreamDojo: nuestro modelo de mundo interactivo y de código abierto que toma los controles de motor de robots y genera el futuro en píxeles. Sin motor, sin mallas, sin dinámicas creadas a mano. Es la Simulación 2.0. Es hora de que la robótica tome la amarga lección.
El aprendizaje de robots en el mundo real está limitado por el tiempo, el desgaste, la seguridad y los reinicios. Si queremos que la IA Física se mueva a la velocidad de preentrenamiento, necesitamos un simulador que se adapte a la escala de preentrenamiento con la menor ingeniería humana posible.
Nuestras ideas clave: (1) los videos egocéntricos humanos son una fuente escalable de física en primera persona; (2) las acciones latentes los hacen "legibles por robots" en diferentes hardware; (3) la inferencia en tiempo real desbloquea teleoperación en vivo, evaluación de políticas y planificación en tiempo de prueba *dentro* de un sueño.
Nosotros preentrenamos con 44K horas de videos humanos: baratos, abundantes y recopilados sin robots en el circuito. Los humanos ya han explorado la combinatoria: agarramos, vertemos, doblamos, ensamblamos, fallamos, intentamos de nuevo—en escenas desordenadas, puntos de vista cambiantes, luz variable y cadenas de tareas de una hora—en una escala que ninguna flota de robots podría igualar. La pieza que falta: estos videos no tienen etiquetas de acción. Así que introducimos acciones latentes: una representación unificada inferida directamente de los videos que captura "qué cambió entre los estados del mundo" sin conocer el hardware subyacente. Esto nos permite entrenar con cualquier video en primera persona como si viniera con comandos de motor adjuntos.
Como resultado, DreamDojo generaliza en cero disparos a objetos y entornos nunca vistos en ningún conjunto de entrenamiento de robots, porque los humanos los vieron primero.
A continuación, postentrenamos en cada robot para adaptarlo a su hardware específico. Piénsalo como separar "cómo se ve y se comporta el mundo" de "cómo actúa este robot en particular." El modelo base sigue las reglas físicas generales, luego "se ajusta" a la mecánica única del robot. Es un poco como cargar un nuevo personaje y activos de escena en Unreal Engine, pero se hace a través de descenso de gradiente y se generaliza mucho más allá del conjunto de datos de postentrenamiento.
Un simulador de mundo solo es útil si funciona lo suficientemente rápido como para cerrar el ciclo. Entrenamos una versión en tiempo real de DreamDojo que funciona a 10 FPS, estable durante más de un minuto de despliegue continuo. Esto desbloquea posibilidades emocionantes:
- Teleoperación en vivo *dentro* de un sueño. Conecta un controlador de VR, transmite acciones a DreamDojo y teleopera un robot virtual en tiempo real. Demostramos esto en Unitree G1 con un visor PICO y una RTX 5090.
- Evaluación de políticas. Puedes evaluar un punto de control de política en DreamDojo en lugar de en el mundo real. Las tasas de éxito simuladas se correlacionan fuertemente con los resultados del mundo real - lo suficientemente precisas como para clasificar puntos de control sin quemar un solo motor.
- Planificación basada en modelos. Muestra múltiples propuestas de acción → simula todas en paralelo → elige el mejor futuro. Ganancias del +17% en éxito en el mundo real desde el principio en una tarea de empaquetado de frutas.
¡Abrimos todo el código fuente! Pesos, código, conjunto de datos de postentrenamiento, conjunto de evaluación y un documento técnico con toneladas de detalles para reproducir. DreamDojo se basa en NVIDIA Cosmos, que también es de peso abierto.
2026 es el año de los Modelos de Mundo para la IA física. Queremos que construyas con nosotros. ¡Feliz escalado!
Enlaces en el hilo:
608
Parte superior
Clasificación
Favoritos

