Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
Diretor de Robótica e Cientista Distinto da NVIDIA. Co-líder do laboratório GEAR. Resolvendo AGI Física, um motor de cada vez. Stanford Ph.D. 1º estagiário da OpenAI.
Treinamos um humanoide com mãos habilidosas de 22 cadências de vida para montar carros em miniatura, operar seringas, separar cartas de pôquer, dobrar e enrolar camisas, tudo aprendendo principalmente com 20.000+ horas de vídeo humano egocêntrico sem nenhum robô no circuito.
Os humanos são a personificação mais escalável do planeta. Descobrimos uma lei de escala quase perfeita log-linear (R² = 0,998) entre volume de vídeo humano e perda de previsão de ação, e essa perda prevê diretamente a taxa de sucesso de robôs reais.
Robôs humanóides serão o objetivo final, porque são o fator prático com uma diferença mínima de incorporação em relação aos humanos. Chame isso de a Lição Amarga do hardware robótico: a semelhança cinemática nos permite simplesmente redirecionar o movimento dos dedos humanos para as articulações digitais dos robôs. Sem embeddings aprendidos, sem algoritmos de transferência sofisticados necessários. Movimento relativo do punho + ações redirecionadas dos dedos com 22-DoF servem como um espaço de ação unificado que vai do pré-treinamento até a execução do robô.
Nossa receita se chama "EgoScale":
- GR00T N1.5 pré-treinamento em 20 mil horas de vídeo humano, no meio do trem com apenas 4 horas (!) de dados de brincadeira robótica com as mãos Sharpa. 54% de ganhos em relação ao treinamento do zero em 5 tarefas altamente habilidosas.
- Resultado mais surpreendente: uma *única* demonstração teleop é suficiente para aprender uma tarefa nunca antes vista. Nossa receita permite uma eficiência extrema dos dados.
- Embora pré-treinemos no espaço articular da mão 22-DoF, a política é transferida para um Unitree G1 com mãos tri-dedos 7-DoF. 30%+ ganhos em relação ao treinamento apenas com dados G1.
O caminho escalável para a destreza robótica nunca foi mais robô. Sempre fomos nós.
Análises profundas no tópico:
459
Anunciando o DreamDojo: nosso modelo de mundo interativo e de código aberto que pega os controles dos motores robóticos e gera o futuro em pixels. Sem motor, sem malhas, sem dinâmicas feitas à mão. É a Simulação 2.0. Hora da robótica tomar a amarga lição.
O aprendizado de robôs no mundo real é limitado pelo tempo, desgaste, segurança e resets. Se queremos que a IA física se mova em velocidade de pré-treinamento, precisamos de um simulador que se adapte à escala de pré-treinamento com o mínimo possível de engenharia humana.
Nossas principais percepções: (1) vídeos egocêntricos humanos são uma fonte escalável de física em primeira pessoa; (2) ações latentes as tornam "legíveis por robôs" em diferentes hardwares; (3) Inferência em tempo real desbloqueia teleop, avaliação de políticas e planejamento em tempo de teste *dentro* de um sonho.
Nós treinamos previamente com 44 mil horas de vídeos humanos: baratos, abundantes e coletados, sem nenhum robô envolvido. Os humanos já exploraram a combinatória: agarramos, despejamos, dobramos, montamos, falhamos, tentamos novamente — através de cenas confusas, pontos de vista mutáveis, luz em mudança e cadeias de tarefas de uma hora — em uma escala que nenhuma frota robótica poderia igualar. A peça que faltava: esses vídeos não têm rótulos de ação. Então introduzimos ações latentes: uma representação unificada inferida diretamente de vídeos que captura "o que mudou entre estados do mundo" sem conhecer o hardware subjacente. Isso nos permite treinar qualquer vídeo em primeira pessoa como se viesse com comandos motores.
Como resultado, o DreamDojo generaliza o zero-shot para objetos e ambientes nunca vistos em nenhum conjunto de treinamento robótico, porque os humanos os viram primeiro.
Em seguida, fazemos pós-treinamento em cada robô para se ajustar ao seu hardware específico. Pense nisso como separar "como o mundo se parece e se comporta" de "como este robô em particular atua". O modelo base segue as regras físicas gerais e então "encaixa" nas mecânicas únicas do robô. É meio como carregar um novo personagem e elementos de cena no Unreal Engine, mas feito por gradiente e generalizando muito além do conjunto de dados pós-treinamento.
Um simulador de mundo só é útil se rodar rápido o suficiente para fechar o ciclo. Treinamos uma versão em tempo real do DreamDojo que roda a 10 FPS, estável por mais de um minuto de implementação contínua. Isso desbloqueia possibilidades empolgantes:
- Teleoperação ao vivo *dentro* de um sonho. Conecte um controle de VR, transmita ações para o DreamDojo e teleopere um robô virtual em tempo real. Fazemos uma demonstração no Unitree G1 com um headset PICO e uma RTX 5090.
- Avaliação de políticas. Você pode comparar um ponto de controle de política no DreamDojo em vez do mundo real. As taxas de sucesso simuladas estão fortemente correlacionadas com resultados reais – precisas o suficiente para classificar pontos de controle sem queimar um único motor.
- Planejamento baseado em modelos. Amostre múltiplas propostas de ação → simule todas em paralelo → escolha o melhor futuro. Ganha +17% de sucesso no mundo real logo de início em uma tarefa de embalagem de frutas.
Nós abrimos tudo em código aberto!! Pesos, código, conjunto de dados pós-treinamento, conjunto de avaliações e whitepaper com muitos detalhes para reproduzir. DreamDojo é baseado no NVIDIA Cosmos, que também é de peso aberto.
2026 é o ano dos Modelos Mundiais para IA física. Queremos que você construa conosco. Boas escaladas!
Links no tópico:
609
Melhores
Classificação
Favoritos

