Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Независимый анализ моделей ИИ и хостинг-провайдеров - выберите лучшую модель и поставщика API для вашего сценария использования
NVIDIA выпустила Nemotron 3 Super, модель рассуждений с открытыми весами на 120B (12B активных), которая набрала 36 баллов в Индексе Искусственного Интеллекта Анализа.
Нам предоставили доступ к этой модели до запуска, и мы оценили её по критериям интеллекта, открытости и эффективности вывода.
Ключевые выводы
➤ Сочетает высокую открытость с сильным интеллектом: Nemotron 3 Super демонстрирует высокие результаты для своего размера и значительно более интеллектуален, чем любая другая модель с сопоставимой открытостью.
➤ Nemotron 3 Super набрала 36 баллов в Индексе Искусственного Интеллекта Анализа, на 17 пунктов опережая предыдущий выпуск Super и на 12 пунктов от Nemotron 3 Nano. По сравнению с моделями в аналогичной категории по размеру, это ставит её впереди gpt-oss-120b (33), но позади недавно выпущенной Qwen3.5 122B A10B (42).
➤ Сосредоточена на эффективном интеллекте: мы обнаружили, что Nemotron 3 Super имеет более высокий интеллект, чем gpt-oss-120b, при этом обеспечивая ~10% более высокую пропускную способность на GPU в простом, но реалистичном нагрузочном тесте.
➤ Поддерживается сегодня для быстрого безсерверного вывода: провайдеры, включая @DeepInfra и @LightningAI, обслуживают эту модель с момента запуска со скоростью до 484 токенов в секунду.
Детали модели
📝 Nemotron 3 Super имеет 120.6B общих и 12.7B активных параметров, а также контекстное окно на 1 миллион токенов и поддержку гибкого рассуждения. Она опубликована с открытыми весами и разрешительной лицензией, наряду с открытыми данными для обучения и раскрытием методологии.
📐 Модель имеет несколько проектных особенностей, позволяющих эффективный вывод, включая использование гибридных архитектур Mamba-Transformer и LatentMoE, многотокенное предсказание и квантованные веса NVFP4.
🎯 NVIDIA предварительно обучила Nemotron 3 Super в (в основном) точности NVFP4, но перешла на BF16 для постобучения. Наши оценочные баллы используют веса BF16.
🧠 Мы провели бенчмаркинг Nemotron 3 Super в её режиме рассуждений с наибольшими усилиями ("обычный"), который является самым способным из трёх режимов вывода модели (выключение рассуждений, низкие усилия и обычный).

6,77K
Alibaba выпустила 4 новые модели Qwen3.5 от 0.8B до 9B. Модель 9B (Reasoning, 32 по Индексу Интеллекта) является самой интеллектуальной моделью с параметрами менее 10B, а 4B (Reasoning, 27) — самой интеллектуальной моделью с параметрами менее 5B, но обе используют более 200M выходных токенов для работы с Индексом Интеллекта.
@Alibaba_Qwen расширила семью Qwen3.5 четырьмя меньшими плотными моделями: 9B (Reasoning, 32 по Индексу Интеллекта), 4B (Reasoning, 27), 2B (Reasoning, 16) и 0.8B (Reasoning, 9). Эти модели дополняют более крупные модели 397B, 27B, 122B A10B и 35B A3B, выпущенные ранее в этом месяце. Все модели имеют лицензию Apache 2.0, поддерживают контекст 262K, включают нативную поддержку зрения и используют тот же унифицированный подход к мышлению/немышлению, что и остальные модели семейства Qwen3.5.
Ключевые результаты бенчмаркинга для вариантов reasoning:
➤ 9B и 4B являются самыми интеллектуальными моделями в своих классах размеров, опережая все другие модели с параметрами менее 10B. Qwen3.5 9B (32) набирает примерно в два раза больше, чем ближайшие модели с параметрами менее 10B: Falcon-H1R-7B (16) и NVIDIA Nemotron Nano 9B V2 (Reasoning, 15). Qwen3.5 4B (27) обходит все эти модели, несмотря на то, что имеет примерно половину параметров. Все четыре маленькие модели Qwen3.5 находятся на границе Парето в графике Интеллекта против Общих Параметров.
➤ Поколение Qwen3.5 представляет собой значительное повышение интеллекта по сравнению с Qwen3 во всех моделях с параметрами менее 10B, с большими приростами при более высоких общих количествах параметров. Сравнивая варианты reasoning: Qwen3.5 9B (32) на 15 пунктов опережает Qwen3 VL 8B (17), 4B (27) набирает на 9 пунктов больше, чем Qwen3 4B 2507 (18), 2B (16) на 3 пункта опережает Qwen3 1.7B (оценка 13), а 0.8B (9) набирает на 2.5 пункта больше, чем Qwen3 0.6B (6.5).
➤ Все четыре модели используют 230-390M выходных токенов для работы с Индексом Интеллекта, что значительно больше, чем у более крупных сестер Qwen3.5 и предшественников Qwen3. Qwen3.5 2B использовала ~390M выходных токенов, 4B использовала ~240M, 0.8B использовала ~230M, а 9B использовала ~260M. Для контекста, гораздо более крупная Qwen3.5 27B использовала 98M, а флагманская модель 397B использовала 86M. Эти количества токенов также превышают большинство моделей на переднем крае: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) и GLM-5 Reasoning (109M).
➤ AA-Omniscience является относительной слабостью, с уровнями галлюцинаций 80-82% для 4B и 9B. Qwen3.5 4B набирает -57 по AA-Omniscience с уровнем галлюцинаций 80% и точностью 12.8%. Qwen3.5 9B набирает -56 с 82% галлюцинаций и 14.7% точности. Эти результаты немного лучше, чем у их предшественников Qwen3 (Qwen3 4B 2507: -61, 84% галлюцинаций, 12.7% точности), при этом улучшение в первую очередь обусловлено более низкими уровнями галлюцинаций, а не более высокой точностью.
➤ Модели Qwen3.5 с параметрами менее 10B объединяют высокий интеллект с нативным зрением на масштабе, который ранее был недоступен. На MMMU-Pro (мультимодальное reasoning) Qwen3.5 9B набирает 69.2%, а 4B набирает 65.4%, опережая Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%) и Ministral 3 8B (46.0%). Qwen3.5 0.8B набирает 25.8%, что примечательно для модели с параметрами менее 1B.
Дополнительная информация:
➤ Окно контекста: 262K токенов
➤ Лицензия: Apache 2.0
➤ Квантование: Нативные веса — BF16. Alibaba не выпустила квантования GPTQ-Int4 первого уровня для этих маленьких моделей, хотя они выпустили их для более крупных моделей в семействе Qwen3.5, выпущенных ранее (27B, 35B-A3B, 122B-A10B, 397B-A17B). В 4-битном квантовании все четыре модели доступны на потребительском оборудовании.
➤ Доступность: На момент публикации нет серверных API первого или третьего уровня, которые бы размещали эти модели.

9,91K
Топ
Рейтинг
Избранное
