Черт возьми... Microsoft открыла исходный код фреймворка вывода, который запускает LLM с 100 миллиардами параметров на одном ЦП. Он называется BitNet. И он делает то, что считалось невозможным. Без GPU. Без облака. Без оборудования за $10K. Просто ваш ноутбук, работающий с моделью на 100 миллиардов параметров на скорости чтения человека. Вот как это работает: Каждый другой LLM хранит веса в 32-битных или 16-битных числах с плавающей запятой. BitNet использует 1.58 бита. Веса тернарные - только -1, 0 или +1. Вот и все. Никаких чисел с плавающей запятой. Никакой дорогой матричной математики. Чистые целочисленные операции, для которых ваш ЦП уже был создан. Результат: - Модель на 100B работает на одном ЦП со скоростью 5-7 токенов/секунду - В 2.37-6.17 раз быстрее, чем llama.cpp на x86 - Энергопотребление на 82% ниже на x86 ЦП - Ускорение в 1.37-5.07 раз на ARM (ваш MacBook) - Память уменьшается в 16-32 раза по сравнению с моделями полной точности Самая дикая часть: Точность почти не меняется. BitNet b1.58 2B4T, их флагманская модель, была обучена на 4 триллионах токенов и показывает конкурентоспособные результаты по сравнению с моделями полной точности того же размера. Квантование не разрушает качество. Оно просто убирает избыточность. Что это на самом деле означает: ...