Esittelyssä NVIDIA Nemotron 3 Super 🎉 Avoin 120B-parametri (12B aktiivinen) hybridi Mamba-muuntaja MoE-malli Natiivi 1M-token-konteksti Rakennettu laskentatehokkuuteen, korkean tarkkuuden moniagenttisovelluksiin Lisäksi täysin avoimet painot, aineistot ja reseptit helppoon räätälöintiin ja käyttöönottoon. 🧵
Tämä uusin lisäys Nemotron-perheeseen ei ole vain isompi Nano. ✅ Jopa 5 kertaa suurempi läpäisykyky ja 2x tarkkuus kuin edellisessä versiossa ✅ Latent MoE, joka kutsuu 4 kertaa enemmän asiantuntijaa samasta päättelyhinnasta ✅ Monitoken-ennuste, joka lyhentää merkittävästi generointiaikaa ✅ Hybridi Mamba-Transformer -runko tarjoaa nelinkertaisen parannetun muistin ja laskennan tehokkuuden ✅ Natiivi NVFP4-esikoulutus, optimoitu NVIDIA Blackwellille Tutustu syvälliseen sukellukseen mallin arkkitehtonisiin päätöksiin ja koulutusmenetelmiin 👇
🦞Nämä innovaatiot yhdistyvät luodakseen mallin, joka sopii hyvin pitkäaikaisille autonomisille agenteille. PinchBenchissä—joka on LLM:ien @OpenClaw-koodausagenttien vertailukohta—Nemotron 3 Super saa 85,6 % pisteitä koko testipaketissa, mikä tekee siitä parhaan avoimen mallin luokassaan.
@openclaw "NVIDIA Nemotron 3 Super: Uusi avoimen ja tehokkaan älykkyyden johtaja"
Artificial Analysis
Artificial Analysis8 tuntia sitten
NVIDIA on julkaissut Nemotron 3 Superin, 120B (12B aktiivisen) avoimen painotuksen päättelymallin, joka saa Artificial Analysis Intelligence Indexissä pisteet 36 hybridi-Mamba-Transformer MoE -arkkitehtuurilla Saimme pääsyn tähän malliin ennen julkaisua ja arvioimme sitä älykkyyden, avoimuuden ja päättelytehokkuuden osalta. Keskeiset huomiot ➤ Yhdistää korkean avoimuuden ja vahvan älykkyyden: Nemotron 3 Super suoriutuu vahvasti kokoonsa nähden ja on huomattavasti älykkäämpi kuin mikään muu vastaavan avoimuuden malli ➤ Nemotron 3 Super sai 36 pistettä Artificial Analysis Intelligence Indexissä, +17 pistettä edellä edellistä Super-julkaisua ja +12 pistettä Nemotron 3 Nanolta. Verrattuna samankokoisiin malleihin, tämä sijoittaa sen gpt-oss-120b:n (33) edelle, mutta hiljattain julkaistun Qwen3.5 122B A10B:n (42) jälkeen. ➤ Keskittyen tehokkaaseen älykkyyteen: havaitsimme, että Nemotron 3 Superilla on korkeampi älykkyys kuin gpt-oss-120b:llä, samalla kun se mahdollistaa ~10 % suuremman läpäisykyvyn GPU:ta kohden yksinkertaisessa mutta realistisessa kuormitustestissä ➤ Tuettu tänään nopeaan palvelimettomaan päättelyyn: palveluntarjoajat kuten @DeepInfra ja @LightningAI palvelevat tätä mallia julkaisun yhteydessä jopa 484 tokenin sekunnissa nopeudella Mallin yksityiskohdat 📝 Nemotron 3 Superilla on yhteensä 120,6 miljardia ja aktiivisia parametreja 12,7 miljardia sekä 1 miljoonan tokenin kontekstiikkuna ja hybridipäättelytuki. Se julkaistaan avoimilla painotuksilla ja sallivalla lisenssillä, sekä avoimen koulutusdatan ja menetelmien julkistuksen ohella 📐 Mallissa on useita suunnitteluominaisuuksia, jotka mahdollistavat tehokkaan päättelyn, mukaan lukien hybridi-Mamba-Transformer- ja LatentMoE-arkkitehtuurit, monitunnisteen ennustaminen ja NVFP4-kvantisoitujen painojen käyttö 🎯 NVIDIA esikoulutti Nemotron 3 Superin (pääosin) NVFP4-tarkkuudella, mutta siirtyi BF16:een jatkokoulutuksen vuoksi. Arviointipisteissämme käytetään BF16-painoja 🧠 Testasimme Nemotron 3 Superia sen suurimman vaivan päättelytilassa ("tavallinen"), joka on mallin kolmesta päättelytilasta kykenevin (päättely-pois, vähävaivainen ja tavallinen)
@openclaw ✨ Nemotron 3 Super on nyt saatavilla @Perplexity_ai Pro- ja Max-tilaajille mallivalitsimen pudotusvalikossa. Sitä voidaan käyttää myös Agent API:n ja Perplexity Computerin kautta.
211