Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Jim Fan

Dyrektor ds. robotyki NVIDIA i wybitny naukowiec. Współprowadzący laboratorium GEAR. Rozwiązywanie fizycznego AGI, jeden silnik na raz. Doktorat Stanforda, pierwszy stażysta OpenAI.

Ogłaszamy DreamDojo: nasz otwarty, interaktywny model świata, który przejmuje kontrolę nad silnikami robotów i generuje przyszłość w pikselach. Bez silnika, bez siatek, bez ręcznie tworzonych dynamik. To Symulacja 2.0. Czas, aby robotyka przyjęła gorzką lekcję. Uczenie się robotów w rzeczywistym świecie jest ograniczone przez czas, zużycie, bezpieczeństwo i resetowanie. Jeśli chcemy, aby Fizyczna AI poruszała się z prędkością wstępnego szkolenia, potrzebujemy symulatora, który dostosowuje się do skali wstępnego szkolenia z jak najmniejszą ilością inżynierii ludzkiej. Nasze kluczowe spostrzeżenia: (1) ludzkie filmy egocentryczne są skalowalnym źródłem fizyki z perspektywy pierwszej osoby; (2) ukryte działania sprawiają, że są "czytelne dla robotów" na różnych sprzętach; (3) wnioskowanie w czasie rzeczywistym odblokowuje teleoperację na żywo, ocenę polityki i planowanie w czasie testu *wewnątrz* snu. Wstępnie szkolimy na 44 tysiącach godzin ludzkich filmów: tanich, obfitych i zebranych bez żadnego robota w pętli. Ludzie już zbadali kombinatorykę: chwytamy, wlewamy, składamy, montujemy, zawodzimy, próbujemy ponownie — w zagraconych scenach, zmieniających się punktach widzenia, zmieniającym się świetle i godzinnych łańcuchach zadań — w skali, której żadna flota robotów nie mogłaby dorównać. Brakującym elementem: te filmy nie mają etykiet akcji. Dlatego wprowadzamy ukryte działania: zjednoczoną reprezentację wywnioskowaną bezpośrednio z filmów, która uchwyca "co się zmieniło między stanami świata" bez znajomości sprzętu. To pozwala nam szkolić na każdym filmie z perspektywy pierwszej osoby, jakby był dołączony do niego zestaw poleceń silnika. W rezultacie DreamDojo generalizuje zero-shot do obiektów i środowisk, które nigdy nie były widziane w żadnym zestawie szkoleniowym robotów, ponieważ ludzie widzieli je jako pierwsi. Następnie, przeprowadzamy post-szkolenie na każdym robocie, aby dopasować go do jego specyficznego sprzętu. Pomyśl o tym jako o oddzieleniu "jak świat wygląda i się zachowuje" od "jak ten konkretny robot działa". Model bazowy podąża za ogólnymi zasadami fizyki, a następnie "przyczepia się" do unikalnej mechaniki robota. To trochę jak ładowanie nowej postaci i zasobów sceny do Unreal Engine, ale zrealizowane przez spadek gradientu i generalizujące daleko poza zestaw danych po szkoleniu. Symulator świata jest użyteczny tylko wtedy, gdy działa wystarczająco szybko, aby zamknąć pętlę. Szkolimy wersję DreamDojo w czasie rzeczywistym, która działa z prędkością 10 FPS, stabilną przez ponad minutę ciągłego rozwoju. To odblokowuje ekscytujące możliwości: - Teleoperacja na żywo *wewnątrz* snu. Podłącz kontroler VR, przesyłaj akcje do DreamDojo i teleoperuj wirtualnym robotem w czasie rzeczywistym. Demonstrujemy to na Unitree G1 z zestawem PICO i jednym RTX 5090. - Ocena polityki. Możesz ocenić punkt kontrolny polityki w DreamDojo zamiast w rzeczywistym świecie. Współczynniki sukcesu w symulacji silnie korelują z wynikami w rzeczywistym świecie - wystarczająco dokładne, aby ocenić punkty kontrolne bez zużywania jednego silnika. - Planowanie oparte na modelu. Próbkuj wiele propozycji działań → symuluj je wszystkie równolegle → wybierz najlepszą przyszłość. Zyski +17% sukcesu w rzeczywistym świecie od razu w zadaniu pakowania owoców. Udostępniamy wszystko jako open-source!! Wagi, kod, zestaw danych po szkoleniu, zestaw ewaluacyjny i dokumentację z mnóstwem szczegółów do reprodukcji. DreamDojo opiera się na NVIDIA Cosmos, który również jest otwarty. Rok 2026 to rok modeli świata dla fizycznej AI. Chcemy, abyś budował z nami. Szczęśliwego skalowania! Linki w wątku:

Najlepsze

Ranking

Ulubione