Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Черт возьми... Microsoft открыла исходный код фреймворка вывода, который запускает LLM с 100 миллиардами параметров на одном ЦП.
Он называется BitNet. И он делает то, что считалось невозможным.
Без GPU. Без облака. Без оборудования за $10K. Просто ваш ноутбук, работающий с моделью на 100 миллиардов параметров на скорости чтения человека.
Вот как это работает:
Каждый другой LLM хранит веса в 32-битных или 16-битных числах с плавающей запятой.
BitNet использует 1.58 бита.
Веса тернарные - только -1, 0 или +1. Вот и все. Никаких чисел с плавающей запятой. Никакой дорогой матричной математики. Чистые целочисленные операции, для которых ваш ЦП уже был создан.
Результат:
- Модель на 100B работает на одном ЦП со скоростью 5-7 токенов/секунду
- В 2.37-6.17 раз быстрее, чем llama.cpp на x86
- Энергопотребление на 82% ниже на x86 ЦП
- Ускорение в 1.37-5.07 раз на ARM (ваш MacBook)
- Память уменьшается в 16-32 раза по сравнению с моделями полной точности
Самая дикая часть:
Точность почти не меняется.
BitNet b1.58 2B4T, их флагманская модель, была обучена на 4 триллионах токенов и показывает конкурентоспособные результаты по сравнению с моделями полной точности того же размера. Квантование не разрушает качество. Оно просто убирает избыточность.
Что это на самом деле означает:
...
Топ
Рейтинг
Избранное
