Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Heilige Scheiße... Microsoft hat ein Inferenz-Framework Open Source veröffentlicht, das ein 100B-Parameter-LLM auf einer einzigen CPU ausführt.
Es heißt BitNet. Und es macht das, was als unmöglich galt.
Kein GPU. Keine Cloud. Kein 10.000-Dollar-Hardware-Setup. Nur dein Laptop, der ein 100-Milliarden-Parameter-Modell mit menschlicher Lesegeschwindigkeit ausführt.
So funktioniert es:
Jedes andere LLM speichert Gewichte in 32-Bit- oder 16-Bit-Floats.
BitNet verwendet 1,58 Bits.
Gewichte sind ternär -1, 0 oder +1. Das war's. Keine Floats. Keine teure Matrix-Mathematik. Reine Ganzzahloperationen, für die deine CPU bereits gebaut wurde.
Das Ergebnis:
- 100B-Modell läuft auf einer einzigen CPU mit 5-7 Tokens/Sekunde
- 2,37x bis 6,17x schneller als llama.cpp auf x86
- 82% geringerer Energieverbrauch auf x86-CPUs
- 1,37x bis 5,07x Geschwindigkeitssteigerung auf ARM (dein MacBook)
- Der Speicher sinkt um 16-32x im Vergleich zu Modellen mit voller Präzision
Der verrückteste Teil:
Die Genauigkeit verändert sich kaum.
BitNet b1.58 2B4T, ihr Flaggschiff-Modell, wurde mit 4 Billionen Tokens trainiert und schneidet wettbewerbsfähig gegen Modelle mit voller Präzision derselben Größe ab. Die Quantisierung zerstört nicht die Qualität. Sie entfernt nur den Ballast.
Was das tatsächlich bedeutet:
...
Top
Ranking
Favoriten
