Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Artificial Analysis

Незалежний аналіз моделей штучного інтелекту та хостинг-провайдерів - виберіть найкращу модель та API провайдера для вашого випадку використання

NVIDIA випустила Nemotron 3 Super — модель з відкритими вагами 120B (12B активно), яка отримує 36 балів за індексом штучного аналізу з гібридною архітектурою MoE Mamba-Transformer Нам надали доступ до цієї моделі ще до запуску, і ми оцінили її з точки зору інтелекту, відкритості та ефективності висновків. Основні висновки ➤ Поєднує високу відкритість із сильним інтелектом: Nemotron 3 Super має високі результати для свого розміру і є значно інтелектуальнішим за будь-яку іншу модель із порівнянною відкритістю ➤ Nemotron 3 Super набрав 36 балів за Індексом інтелекту штучного аналізу, що на +17 балів випереджає попередній реліз Super і на +12 балів від Nemotron 3 Nano. Порівняно з моделями подібної категорії розмірів, це ставить його попереду gpt-oss-120b (33), але позаду нещодавно випущеного Qwen3.5 122B A10B (42). ➤ Зосереджені на ефективному інтелекті: ми виявили, що Nemotron 3 Super має вищий інтелект, ніж gpt-oss-120b, при цьому забезпечуючи ~10% вищу пропускну здатність на GPU у простому, але реалістичному тесті навантаження ➤ Підтримується сьогодні для швидкого безсерверного висновку: провайдери, включаючи @DeepInfra та @LightningAI, обслуговують цю модель на запуску зі швидкістю до 484 токенів на секунду Деталі моделі 📝 Nemotron 3 Super має загалом 120,6 млрд і 12,7 млрд активних параметрів, а також контекстне вікно на 1 мільйон токенів і підтримку гібридного мислення. Він публікується з відкритими вагами та дозволяючою ліцензією, а також відкритими даними про навчання та розкриття методології 📐 Модель має кілька конструктивних особливостей, що дозволяють ефективно робити висновки, зокрема використання гібридних архітектур Mamba-Transformer і LatentMoE, багатотокенне прогнозування та квантування NVFP4 🎯 NVIDIA попередньо навчила Nemotron 3 Super (переважно) точності NVFP4, але перейшла на BF16 для післянавчання. Наші оцінювальні бали використовують вагу BF16 🧠 Ми протестували Nemotron 3 Super у його режимі мислення з найбільшими зусиллями («звичайний»), найздатнішому з трьох режимів висновку моделі (вимкнений, низькоуважний і звичайний)

Alibaba випустила 4 нові моделі Qwen3.5 з 0.8B до 9B. 9B (Reasoning, 32 за індексом інтелекту) є найрозумнішою моделлю за параметрами 10B, а 4B (Reasoning, 27) — найрозумнішою за 5B, але обидві використовують токени 200M+ для запуску Індексу інтелекту @Alibaba_Qwen розширила сімейство Qwen3.5 чотирма меншими щільними моделями: 9B (Reasoning, 32 за індексом інтелекту), 4B (Reasoning, 27), 2B (Reasoning, 16) та 0.8B (Reasoning, 9). Вони доповнюють більші моделі 397B, 27B, 122B A10B та 35B A3B, випущені раніше цього місяця. Усі моделі мають ліцензію Apache 2.0, підтримують контекст 262K, мають підтримку нативного зору та використовують той самий гібридний підхід уніфікованого мислення/немислення, що й решта сімейства Qwen3.5 Ключові результати бенчмаркінгу для варіантів міркування: ➤ 9B і 4B є найрозумнішими моделями у своїх відповідних розмірних класах, випереджаючи всі інші моделі з параметрами 10B. Qwen3.5 9B (32) приблизно вдвічі перевищує наступні найближчі моделі нижче 10B: Falcon-H1R-7B (16) та NVIDIA Nemotron Nano 9B V2 (Reasoning, 15). Qwen3.5 4B (27) перевершує всі ці показники, хоча має приблизно половину менших параметрів. Усі чотири малі моделі Qwen3.5 знаходяться на межі Парето в діаграмі інтелекту проти загальних параметрів ➤ Покоління Qwen3.5 є матеріальним підвищенням інтелекту порівняно з Qwen3 у всіх розмірах моделей нижче 10B, з більшим приростом при більшій кількості загальних параметрів. Порівнюючи варіанти міркування: Qwen3.5 9B (32) на 15 пунктів випереджає Qwen3 VL 8B (17), 4B (27) набирає 9 пунктів порівняно з Qwen3 4B 2507 (18), 2B (16) на 3 пункти випереджає Qwen3 1.7B (оцінюється 13), а 0.8B (9) на 2.5 пунктів порівняно з Qwen3 0.6B (6.5). ➤ Усі чотири моделі використовують токени 230-390M для роботи Індексу Інтелекту, що значно більше, ніж як більші Qwen3.5, так і попередники Qwen3. Qwen3.5 2B використовувала токени виводу ~390M, 4B — ~240M, 0.8B — ~230M, а 9B — ~260M. Для контексту: значно більший Qwen3.5 27B використовував 98M, а флагман 397B — 86M. Кількість цих токенів також перевищує більшість моделей Frontier: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) та GLM-5 Reasoning (109M) ➤ AA-Всезнання є відносною слабкістю, з рівнем галюцинацій 80-82% для 4B і 9B. Qwen3.5 4B має -57 на AA-Omniscience, рівень галюцинацій 80% і точність 12,8%. Qwen3.5 9B має -56 з 82% галюцинацій і точністю 14,7%. Вони трохи кращі за своїх попередників Qwen3 (Qwen3 4B 2507: -61, 84% галюцинації, 12,7% точності), причому покращення зумовлено переважно нижчим рівнем галюцинацій, а не вищою точністю. ➤ Моделі Qwen3.5 sub-10B поєднують високий інтелект із нативним зором у масштабах, які раніше були недоступні. У MMMU-Pro (мультимодальне мислення) Qwen3.5 9B набирає 69,2%, а 4B — 65,4%, випереджаючи Qwen3 VL 8B (56,6%), Qwen3 VL 4B (52,0%) та Ministral 3 8B (46,0%). Qwen3.5 0.8B набирає 25,8%, що є помітним для моделі нижче 1B Інша інформація: ➤ Контекстне вікно: 262K токенів ➤ Ліцензія: Apache 2.0 ➤ Квантування: Рідні ваги — BF16. Alibaba не випускала оригінальні квантування GPTQ-Int4 для цих малих моделей, хоча це зробило для більших моделей сімейства Qwen3.5, які були випущені раніше (27B, 35B-A3B, 122B-A10B, 397B-A17B). У 4-бітній квантуванні всі чотири моделі доступні на споживчому апаратному забезпеченні ➤ Доступність: На момент публікації не існує сторонніх або сторонніх серверних API, які розміщують ці моделі

Найкращі

Рейтинг

Вибране