Caramba... A Microsoft tornou open source um framework de inferência que executa um modelo LLM de 100 bilhões de parâmetros em uma única CPU. Chama-se BitNet. E faz o que se supunha ser impossível. Sem GPU. Sem nuvem. Sem configuração de hardware de $10K. Apenas o seu laptop executando um modelo de 100 bilhões de parâmetros à velocidade de leitura humana. Aqui está como funciona: Todos os outros LLM armazenam pesos em floats de 32 bits ou 16 bits. O BitNet usa 1,58 bits. Os pesos são ternários -1, 0 ou +1. É isso. Sem floats. Sem matemática de matriz cara. Operações inteiras puras para as quais sua CPU já foi projetada. O resultado: - Modelo de 100B roda em uma única CPU a 5-7 tokens/segundo - 2,37x a 6,17x mais rápido que llama.cpp em x86 - Consumo de energia 82% menor em CPUs x86 - Aceleração de 1,37x a 5,07x em ARM (seu MacBook) - A memória cai de 16 a 32 vezes em comparação com modelos de precisão total A parte mais louca: A precisão mal se altera. O BitNet b1.58 2B4T, seu modelo principal, foi treinado em 4 trilhões de tokens e se compara competitivamente com modelos de precisão total do mesmo tamanho. A quantização não está destruindo a qualidade. Está apenas removendo o excesso. O que isso realmente significa: ...