Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Analisis independen model AI dan penyedia hosting - pilih model dan penyedia API terbaik untuk kasus penggunaan Anda
NVIDIA telah merilis Nemotron 3 Super, model penalaran bobot terbuka 120B (12B aktif) yang mendapat skor 36 pada Indeks Kecerdasan Analisis Buatan dengan arsitektur MoE Mamba-Transformer hibrida
Kami diberi akses ke model ini sebelum peluncuran dan mengevaluasinya di seluruh kecerdasan, keterbukaan, dan efisiensi inferensi.
Kesimpulan utama
➤ Menggabungkan keterbukaan tinggi dengan kecerdasan yang kuat: Nemotron 3 Super berkinerja kuat untuk ukurannya dan secara substansial lebih cerdas daripada model lain dengan keterbukaan yang sebanding
➤ Nemotron 3 Super mencetak 36 poin pada Indeks Kecerdasan Analisis Buatan, +17 poin di depan rilis Super sebelumnya dan +12 poin dari Nemotron 3 Nano. Dibandingkan dengan model dalam kategori ukuran yang sama, ini menempatkannya di depan gpt-oss-120b (33), tetapi di belakang Qwen3.5 122B A10B (42) yang baru-baru ini dirilis.
➤ Berfokus pada kecerdasan yang efisien: kami menemukan Nemotron 3 Super memiliki kecerdasan yang lebih tinggi daripada gpt-oss-120b sambil memungkinkan throughput ~10% lebih tinggi per GPU dalam uji beban yang sederhana namun realistis
➤ Didukung hari ini untuk inferensi nirserver yang cepat: penyedia termasuk @DeepInfra dan @LightningAI melayani model ini saat diluncurkan dengan kecepatan hingga 484 token per detik
Detail model
📝 Nemotron 3 Super memiliki total 120,6 miliar dan 12,7 miliar parameter aktif, bersama dengan jendela konteks 1 juta token dan dukungan penalaran hibrida. Ini diterbitkan dengan bobot terbuka dan lisensi permisif, di samping pengungkapan data pelatihan dan metodologi terbuka
📐 Model ini memiliki beberapa fitur desain yang memungkinkan inferensi yang efisien, termasuk menggunakan arsitektur Mamba-Transformer dan LatentMoE hibrida, prediksi multi-token, dan bobot terkuantisasi NVFP4
🎯 NVIDIA melatih Nemotron 3 Super terlebih dahulu dalam (kebanyakan) presisi NVFP4, tetapi pindah ke BF16 untuk pasca-pelatihan. Skor evaluasi kami menggunakan bobot BF16
🧠 Kami membandingkan Nemotron 3 Super dalam mode penalaran upaya tertinggi ("reguler"), yang paling mampu dari tiga mode inferensi model (penalaran, upaya rendah, dan reguler)

6,77K
Alibaba telah merilis 4 model Qwen3.5 baru dari 0,8B hingga 9B. 9B (Reasoning, 32 pada Indeks Intelijen) adalah model paling cerdas di bawah parameter 10B, dan 4B (Reasoning, 27) yang paling cerdas di bawah 5B, tetapi keduanya menggunakan 200M+ token output untuk menjalankan Indeks Intelijen
@Alibaba_Qwen telah memperluas keluarga Qwen3.5 dengan empat model padat yang lebih kecil: 9B (Reasoning, 32 on the Intelligence Index), 4B (Reasoning, 27), 2B (Reasoning, 16), dan 0.8B (Reasoning, 9). Ini melengkapi model 397B, 27B, 122B A10B, dan 35B A3B yang lebih besar yang dirilis awal bulan ini. Semua model berlisensi Apache 2.0, mendukung konteks 262K, menyertakan dukungan visi asli, dan menggunakan pendekatan hibrida pemikiran/non-berpikir terpadu yang sama dengan keluarga Qwen3.5 lainnya
Hasil pembandingan utama untuk varian penalaran:
➤ 9B dan 4B adalah model paling cerdas di kelas ukurannya masing-masing, di depan semua model lain di bawah parameter 10B. Qwen3.5 9B (32) mencetak kira-kira dua kali lipat model terdekat berikutnya di bawah 10B: Falcon-H1R-7B (16) dan NVIDIA Nemotron Nano 9B V2 (Reasoning, 15). Qwen3.5 4B (27) mengungguli semua ini meskipun memiliki sekitar setengah parameter. Keempat model Qwen3.5 kecil berada di perbatasan Pareto dari grafik Parameter Intelijen vs. Total
➤ Generasi Qwen3.5 mewakili peningkatan kecerdasan material dibandingkan Qwen3 di semua ukuran model sub-10B, dengan keuntungan yang lebih besar pada jumlah total parameter yang lebih tinggi. Membandingkan varian penalaran: Qwen3.5 9B (32) unggul 15 poin dari Qwen3 VL 8B (17), 4B (27) naik 9 poin dibandingkan Qwen3 4B 2507 (18), 2B (16) unggul 3 poin dari Qwen3 1.7B (diperkirakan 13), dan 0.8B (9) naik 2.5 poin dari Qwen3 0.6B (6.5).
Keempat model menggunakan 230-390 juta token keluaran untuk menjalankan Indeks Intelijen, secara signifikan lebih banyak daripada saudara kandung Qwen3.5 yang lebih besar dan pendahulu Qwen3. Qwen3.5 2B menggunakan ~390M token keluaran, 4B menggunakan ~240M, 0.8B menggunakan ~230M, dan 9B menggunakan ~260M. Sebagai konteks, Qwen3.5 27B yang jauh lebih besar menggunakan 98M dan unggulan 397B menggunakan 86M. Jumlah token ini juga melebihi sebagian besar model perbatasan: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M), dan GLM-5 Reasoning (109M)
➤ AA-Omniscience adalah kelemahan relatif, dengan tingkat halusinasi 80-82% untuk 4B dan 9B. Qwen3.5 4B skor -57 pada AA-Omniscience dengan tingkat halusinasi 80% dan akurasi 12.8%. Qwen3.5 9B skor -56 dengan halusinasi 82% dan akurasi 14.7%. Ini sedikit lebih baik daripada pendahulunya Qwen3 (Qwen3 4B 2507: -61, 84% halusinasi, akurasi 12,7%), dengan peningkatan yang didorong terutama oleh tingkat halusinasi yang lebih rendah daripada akurasi yang lebih tinggi.
➤ Model Qwen3.5 sub-10B menggabungkan kecerdasan tinggi dengan penglihatan asli pada skala yang sebelumnya tidak tersedia. Pada MMMU-Pro (penalaran multimoda), Qwen3.5 9B mendapat skor 69,2% dan skor 4B 65,4%, di depan Qwen3 VL 8B (56,6%), Qwen3 VL 4B (52,0%), dan Ministral 3 8B (46,0%). Qwen3.5 0.8B mencetak skor 25.8%, yang terkenal untuk model sub-1B
Informasi lainnya:
➤ Jendela konteks: 262K token
➤ Lisensi: Apache 2.0
➤ Kuantisasi: Bobot asli adalah BF16. Alibaba belum merilis kuantisasi GPTQ-Int4 pihak pertama untuk model kecil ini, meskipun mereka merilis untuk model yang lebih besar dalam keluarga Qwen3.5 yang dirilis sebelumnya (27B, 35B-A3B, 122B-A10B, 397B-A17B). Dalam kuantisasi 4-bit, keempat model dapat diakses di perangkat keras konsumen
➤ Ketersediaan: Pada saat penerbitan, tidak ada API pihak pertama atau pihak ketiga tanpa server yang menghosting model ini

9,91K
Teratas
Peringkat
Favorit
