Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Caramba... A Microsoft tornou open source um framework de inferência que executa um modelo LLM de 100 bilhões de parâmetros em uma única CPU.
Chama-se BitNet. E faz o que se supunha ser impossível.
Sem GPU. Sem nuvem. Sem configuração de hardware de $10K. Apenas o seu laptop executando um modelo de 100 bilhões de parâmetros à velocidade de leitura humana.
Aqui está como funciona:
Todos os outros LLM armazenam pesos em floats de 32 bits ou 16 bits.
O BitNet usa 1,58 bits.
Os pesos são ternários -1, 0 ou +1. É isso. Sem floats. Sem matemática de matriz cara. Operações inteiras puras para as quais sua CPU já foi projetada.
O resultado:
- Modelo de 100B roda em uma única CPU a 5-7 tokens/segundo
- 2,37x a 6,17x mais rápido que llama.cpp em x86
- Consumo de energia 82% menor em CPUs x86
- Aceleração de 1,37x a 5,07x em ARM (seu MacBook)
- A memória cai de 16 a 32 vezes em comparação com modelos de precisão total
A parte mais louca:
A precisão mal se altera.
O BitNet b1.58 2B4T, seu modelo principal, foi treinado em 4 trilhões de tokens e se compara competitivamente com modelos de precisão total do mesmo tamanho. A quantização não está destruindo a qualidade. Está apenas removendo o excesso.
O que isso realmente significa:
...
Top
Classificação
Favoritos
