Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
Dyrektor ds. robotyki NVIDIA i wybitny naukowiec. Współprowadzący laboratorium GEAR. Rozwiązywanie fizycznego AGI, jeden silnik na raz. Doktorat Stanforda, pierwszy stażysta OpenAI.
Wytrenujemy humanoida z 22-stopniowymi dłońmi do składania modeli samochodów, obsługi strzykawek, sortowania kart do pokera, składania/rolowania koszul, wszystko to nauczyliśmy się głównie z ponad 20 000 godzin egocentrycznych filmów z ludźmi, bez udziału robota.
Ludzie są najbardziej skalowalnym wcieleniem na planecie. Odkryliśmy prawie doskonałe prawo skalowania log-linearnego (R² = 0.998) między objętością filmów z ludźmi a stratą w przewidywaniu akcji, a ta strata bezpośrednio przewiduje wskaźnik sukcesu prawdziwego robota.
Humanoidne roboty będą końcowym celem, ponieważ są praktycznym formatem z minimalną luką wcielenia w porównaniu do ludzi. Nazwij to Gorzka Lekcja sprzętu robota: podobieństwo kinematyczne pozwala nam po prostu przekształcić ruchy palców ludzi na stawy dłoni robota. Żadne nauczone osadzenia, żadne wymyślne algorytmy transferowe nie są potrzebne. Ruch względny nadgarstka + przekształcone 22-stopniowe ruchy palców służą jako zjednoczona przestrzeń akcji, która przechodzi od wstępnego szkolenia do wykonania przez robota.
Nasza receptura nazywa się "EgoScale":
- Wstępne szkolenie GR00T N1.5 na 20K godzinach filmów z ludźmi, średnie szkolenie tylko z 4 godzin (!) danych z zabawy robota z dłońmi Sharpa. 54% zysków w porównaniu do szkolenia od podstaw w pięciu wysoce zręcznych zadaniach.
- Najbardziej zaskakujący wynik: *jedna* demonstracja teleoperacyjna wystarcza, aby nauczyć się zadania, którego nigdy wcześniej nie widziano. Nasza receptura umożliwia ekstremalną efektywność danych.
- Chociaż wstępnie szkolimy w przestrzeni stawów dłoni 22-DoF, polityka przenosi się na Unitree G1 z 7-DoF dłońmi tri-finger. Zyski powyżej 30% w porównaniu do szkolenia tylko na danych G1.
Skalowalna droga do zręczności robota nigdy nie polegała na większej liczbie robotów. Zawsze chodziło o nas.
Głębokie nurty w wątku:
467
Ogłaszamy DreamDojo: nasz otwarty, interaktywny model świata, który przejmuje kontrolę nad silnikami robotów i generuje przyszłość w pikselach. Bez silnika, bez siatek, bez ręcznie tworzonych dynamik. To Symulacja 2.0. Czas, aby robotyka przyjęła gorzką lekcję.
Uczenie się robotów w rzeczywistym świecie jest ograniczone przez czas, zużycie, bezpieczeństwo i resetowanie. Jeśli chcemy, aby Fizyczna AI poruszała się z prędkością wstępnego szkolenia, potrzebujemy symulatora, który dostosowuje się do skali wstępnego szkolenia z jak najmniejszą ilością inżynierii ludzkiej.
Nasze kluczowe spostrzeżenia: (1) ludzkie filmy egocentryczne są skalowalnym źródłem fizyki z perspektywy pierwszej osoby; (2) ukryte działania sprawiają, że są "czytelne dla robotów" na różnych sprzętach; (3) wnioskowanie w czasie rzeczywistym odblokowuje teleoperację na żywo, ocenę polityki i planowanie w czasie testu *wewnątrz* snu.
Wstępnie szkolimy na 44 tysiącach godzin ludzkich filmów: tanich, obfitych i zebranych bez żadnego robota w pętli. Ludzie już zbadali kombinatorykę: chwytamy, wlewamy, składamy, montujemy, zawodzimy, próbujemy ponownie — w zagraconych scenach, zmieniających się punktach widzenia, zmieniającym się świetle i godzinnych łańcuchach zadań — w skali, której żadna flota robotów nie mogłaby dorównać. Brakującym elementem: te filmy nie mają etykiet akcji. Dlatego wprowadzamy ukryte działania: zjednoczoną reprezentację wywnioskowaną bezpośrednio z filmów, która uchwyca "co się zmieniło między stanami świata" bez znajomości sprzętu. To pozwala nam szkolić na każdym filmie z perspektywy pierwszej osoby, jakby był dołączony do niego zestaw poleceń silnika.
W rezultacie DreamDojo generalizuje zero-shot do obiektów i środowisk, które nigdy nie były widziane w żadnym zestawie szkoleniowym robotów, ponieważ ludzie widzieli je jako pierwsi.
Następnie, przeprowadzamy post-szkolenie na każdym robocie, aby dopasować go do jego specyficznego sprzętu. Pomyśl o tym jako o oddzieleniu "jak świat wygląda i się zachowuje" od "jak ten konkretny robot działa". Model bazowy podąża za ogólnymi zasadami fizyki, a następnie "przyczepia się" do unikalnej mechaniki robota. To trochę jak ładowanie nowej postaci i zasobów sceny do Unreal Engine, ale zrealizowane przez spadek gradientu i generalizujące daleko poza zestaw danych po szkoleniu.
Symulator świata jest użyteczny tylko wtedy, gdy działa wystarczająco szybko, aby zamknąć pętlę. Szkolimy wersję DreamDojo w czasie rzeczywistym, która działa z prędkością 10 FPS, stabilną przez ponad minutę ciągłego rozwoju. To odblokowuje ekscytujące możliwości:
- Teleoperacja na żywo *wewnątrz* snu. Podłącz kontroler VR, przesyłaj akcje do DreamDojo i teleoperuj wirtualnym robotem w czasie rzeczywistym. Demonstrujemy to na Unitree G1 z zestawem PICO i jednym RTX 5090.
- Ocena polityki. Możesz ocenić punkt kontrolny polityki w DreamDojo zamiast w rzeczywistym świecie. Współczynniki sukcesu w symulacji silnie korelują z wynikami w rzeczywistym świecie - wystarczająco dokładne, aby ocenić punkty kontrolne bez zużywania jednego silnika.
- Planowanie oparte na modelu. Próbkuj wiele propozycji działań → symuluj je wszystkie równolegle → wybierz najlepszą przyszłość. Zyski +17% sukcesu w rzeczywistym świecie od razu w zadaniu pakowania owoców.
Udostępniamy wszystko jako open-source!! Wagi, kod, zestaw danych po szkoleniu, zestaw ewaluacyjny i dokumentację z mnóstwem szczegółów do reprodukcji. DreamDojo opiera się na NVIDIA Cosmos, który również jest otwarty.
Rok 2026 to rok modeli świata dla fizycznej AI. Chcemy, abyś budował z nami. Szczęśliwego skalowania!
Linki w wątku:
618
Najlepsze
Ranking
Ulubione

