DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Jim Fan

Diretor de Robótica e Cientista Distinto da NVIDIA. Co-líder do laboratório GEAR. Resolvendo AGI Física, um motor de cada vez. Stanford Ph.D. 1º estagiário da OpenAI.

Anunciando o DreamDojo: nosso modelo de mundo interativo e de código aberto que pega os controles dos motores robóticos e gera o futuro em pixels. Sem motor, sem malhas, sem dinâmicas feitas à mão. É a Simulação 2.0. Hora da robótica tomar a amarga lição. O aprendizado de robôs no mundo real é limitado pelo tempo, desgaste, segurança e resets. Se queremos que a IA física se mova em velocidade de pré-treinamento, precisamos de um simulador que se adapte à escala de pré-treinamento com o mínimo possível de engenharia humana. Nossas principais percepções: (1) vídeos egocêntricos humanos são uma fonte escalável de física em primeira pessoa; (2) ações latentes as tornam "legíveis por robôs" em diferentes hardwares; (3) Inferência em tempo real desbloqueia teleop, avaliação de políticas e planejamento em tempo de teste *dentro* de um sonho. Nós treinamos previamente com 44 mil horas de vídeos humanos: baratos, abundantes e coletados, sem nenhum robô envolvido. Os humanos já exploraram a combinatória: agarramos, despejamos, dobramos, montamos, falhamos, tentamos novamente — através de cenas confusas, pontos de vista mutáveis, luz em mudança e cadeias de tarefas de uma hora — em uma escala que nenhuma frota robótica poderia igualar. A peça que faltava: esses vídeos não têm rótulos de ação. Então introduzimos ações latentes: uma representação unificada inferida diretamente de vídeos que captura "o que mudou entre estados do mundo" sem conhecer o hardware subjacente. Isso nos permite treinar qualquer vídeo em primeira pessoa como se viesse com comandos motores. Como resultado, o DreamDojo generaliza o zero-shot para objetos e ambientes nunca vistos em nenhum conjunto de treinamento robótico, porque os humanos os viram primeiro. Em seguida, fazemos pós-treinamento em cada robô para se ajustar ao seu hardware específico. Pense nisso como separar "como o mundo se parece e se comporta" de "como este robô em particular atua". O modelo base segue as regras físicas gerais e então "encaixa" nas mecânicas únicas do robô. É meio como carregar um novo personagem e elementos de cena no Unreal Engine, mas feito por gradiente e generalizando muito além do conjunto de dados pós-treinamento. Um simulador de mundo só é útil se rodar rápido o suficiente para fechar o ciclo. Treinamos uma versão em tempo real do DreamDojo que roda a 10 FPS, estável por mais de um minuto de implementação contínua. Isso desbloqueia possibilidades empolgantes: - Teleoperação ao vivo *dentro* de um sonho. Conecte um controle de VR, transmita ações para o DreamDojo e teleopere um robô virtual em tempo real. Fazemos uma demonstração no Unitree G1 com um headset PICO e uma RTX 5090. - Avaliação de políticas. Você pode comparar um ponto de controle de política no DreamDojo em vez do mundo real. As taxas de sucesso simuladas estão fortemente correlacionadas com resultados reais – precisas o suficiente para classificar pontos de controle sem queimar um único motor. - Planejamento baseado em modelos. Amostre múltiplas propostas de ação → simule todas em paralelo → escolha o melhor futuro. Ganha +17% de sucesso no mundo real logo de início em uma tarefa de embalagem de frutas. Nós abrimos tudo em código aberto!! Pesos, código, conjunto de dados pós-treinamento, conjunto de avaliações e whitepaper com muitos detalhes para reproduzir. DreamDojo é baseado no NVIDIA Cosmos, que também é de peso aberto. 2026 é o ano dos Modelos Mundiais para IA física. Queremos que você construa conosco. Boas escaladas! Links no tópico:

Melhores

Classificação

Favoritos