NVIDIA hat Nemotron 3 Super veröffentlicht, ein 120B (12B aktiv) offenes Gewichtsmodell für Schlussfolgerungen, das mit 36 im Artificial Analysis Intelligence Index bewertet wird und eine hybride Mamba-Transformer MoE-Architektur verwendet. Wir hatten vor der Markteinführung Zugang zu diesem Modell und haben es hinsichtlich Intelligenz, Offenheit und Inferenzeffizienz bewertet. Wichtige Erkenntnisse ➤ Kombiniert hohe Offenheit mit starker Intelligenz: Nemotron 3 Super schneidet für seine Größe stark ab und ist erheblich intelligenter als jedes andere Modell mit vergleichbarer Offenheit. ➤ Nemotron 3 Super erzielte 36 im Artificial Analysis Intelligence Index, 17 Punkte mehr als die vorherige Super-Version und 12 Punkte mehr als Nemotron 3 Nano. Im Vergleich zu Modellen in einer ähnlichen Größenkategorie liegt es vor gpt-oss-120b (33), aber hinter dem kürzlich veröffentlichten Qwen3.5 122B A10B (42). ➤ Fokussiert auf effiziente Intelligenz: Wir fanden, dass Nemotron 3 Super eine höhere Intelligenz als gpt-oss-120b aufweist und gleichzeitig ~10% höheren Durchsatz pro GPU in einem einfachen, aber realistischen Lasttest ermöglicht. ➤ Heute unterstützt für schnelle serverlose Inferenz: Anbieter wie @DeepInfra und @LightningAI bieten dieses Modell zum Start mit Geschwindigkeiten von bis zu 484 Tokens pro Sekunde an. Modell-Details 📝 Nemotron 3 Super hat insgesamt 120,6B und 12,7B aktive Parameter, zusammen mit einem Kontextfenster von 1 Million Tokens und Unterstützung für hybrides Schlussfolgern. Es wird mit offenen Gewichten und einer permissiven Lizenz veröffentlicht, zusammen mit offenen Trainingsdaten und Methodikoffenlegung. 📐 Das Modell hat mehrere Designmerkmale, die eine effiziente Inferenz ermöglichen, einschließlich der Verwendung von hybriden Mamba-Transformer- und LatentMoE-Architekturen, Multi-Token-Vorhersage und NVFP4-quantisierten Gewichten. 🎯 NVIDIA hat Nemotron 3 Super in (hauptsächlich) NVFP4-Präzision vortrainiert, ist jedoch für das Nachtraining zu BF16 gewechselt. Unsere Bewertungsergebnisse verwenden die BF16-Gewichte. 🧠 Wir haben Nemotron 3 Super in seinem höchsten Anstrengungsmodus für Schlussfolgerungen ("regulär") benchmarkiert, dem fähigsten der drei Inferenzmodi des Modells (Schlussfolgern aus, niedriger Aufwand und regulär).
NVIDIA hat bedeutende Vor- und Nachtrainingsdaten zusammen mit neuen umfassenden Trainingsrezepten für dieses Modell veröffentlicht. Diese Offenlegungen erreichen einen Wert von 83 im Artificial Analysis Openness Index, nur hinter den hochoffenen Modellen von Ai2 und MBZUAI, und platzieren Nemotron 3 Super im attraktivsten Quadranten für Offenheit und Intelligenz unter den Mitbewerbern. Nemotron 3 Super ist mit Abstand das intelligenteste Modell, das jemals mit diesem Maß an Offenheit veröffentlicht wurde.
Nemotron 3 Super verwendete eine relativ hohe Anzahl von Tokens in unseren Bewertungen. Es verwendete 110M Ausgabetokens, um die Bewertungen des Artificial Analysis Intelligence Index durchzuführen - das sind etwa 40 % mehr als gpt-oss-120b mit hohem Denkaufwand, aber eine ~20 % Reduzierung im Vergleich zu Nemotron 3 Nano. Das sind deutlich weniger Tokens als Anthropic’s Claude Opus 4.6 (max), das 160M Tokens verwendete, und etwas weniger als OpenAI’s GPT-5.4 (xhigh), das 120M Tokens verwendete.
Mit insgesamt 120B und 12B aktiven Parametern ist Nemotron 3 Super im Vergleich zu anderen aktuellen Modellen mit offenen Gewichten von führenden globalen Laboren immer noch relativ klein – GLM-5 (744B insgesamt, 40B aktiv), Qwen3.5 397B A17B (397B insgesamt, 17B aktiv) und Kimi K2.5 (1T insgesamt, 32B aktiv) sind jeweils 3x bis 8x größer.
NVIDIA konzentriert sich auf effiziente Intelligenz für die Nemotron-Familie, und wir haben die Inferenzleistung im Vergleich zu Peer-Modellen getestet, um die Auswirkungen der Architekturentscheidungen zu sehen. Wir haben selbstgehostete Durchsatztests über eine Reihe von Peer-Modellen mit einer einfachen Methodik durchgeführt, die Arbeitslasten repräsentiert, die häufige Anwendungsfälle wie agentische Workflows mit moderater Historie, RAG-Anwendungen oder Dokumentenverarbeitung darstellen. In diesem Test zeigt Nemotron 3 Super (NVFP4) einen um 11 % höheren Durchsatz pro NVIDIA B200 GPU im Vergleich zu gpt-oss-120b (MXFP4), was Nemotron 3 Super im Vergleich zu gpt-oss-120b „nach oben und nach rechts“ platziert. Qwen3.5 122B A10B erreicht +6 Punkte im Intelligence Index im Vergleich zu Nemotron 3 Super, jedoch bei 40 % niedrigerem Durchsatz pro GPU. Unsere Intelligence Index-Werte für Nemotron 3 Super wurden auf den BF16-Gewichten bewertet. Wir haben noch nicht bewertet, ob es einen Einfluss der NVFP4-Quantisierung auf die Intelligenz gibt, aber die internen Tests von NVIDIA haben ergeben, dass das NVFP4-Modell eine mediane Genauigkeit von 99,8 % im Vergleich zur BF16-Basislinie erreicht hat. Für weitere Details zu unserem Testaufbau und den Modellkonfigurationen siehe unseren Artikel über Nemotron 3 Super:
Nemotron 3 Super wird ab seiner Veröffentlichung auf serverlosen APIs von Anbietern wie Lightning AI und DeepInfra verfügbar sein. Wir haben diese Endpunkte getestet und sehen eine Leistung von bis zu 484 Tokens pro Sekunde bei unseren Standard-10k-Token-Eingangsarbeitslasten. Bei der Einführung befindet sich Nemotron 3 Super im attraktivsten Quadranten für Intelligenz und Ausgabegeschwindigkeit im Vergleich zu ähnlichen Mitbewerbern.
6,75K