Heilige Scheiße... Microsoft hat ein Inferenz-Framework Open Source veröffentlicht, das ein 100B-Parameter-LLM auf einer einzigen CPU ausführt. Es heißt BitNet. Und es macht das, was als unmöglich galt. Kein GPU. Keine Cloud. Kein 10.000-Dollar-Hardware-Setup. Nur dein Laptop, der ein 100-Milliarden-Parameter-Modell mit menschlicher Lesegeschwindigkeit ausführt. So funktioniert es: Jedes andere LLM speichert Gewichte in 32-Bit- oder 16-Bit-Floats. BitNet verwendet 1,58 Bits. Gewichte sind ternär -1, 0 oder +1. Das war's. Keine Floats. Keine teure Matrix-Mathematik. Reine Ganzzahloperationen, für die deine CPU bereits gebaut wurde. Das Ergebnis: - 100B-Modell läuft auf einer einzigen CPU mit 5-7 Tokens/Sekunde - 2,37x bis 6,17x schneller als llama.cpp auf x86 - 82% geringerer Energieverbrauch auf x86-CPUs - 1,37x bis 5,07x Geschwindigkeitssteigerung auf ARM (dein MacBook) - Der Speicher sinkt um 16-32x im Vergleich zu Modellen mit voller Präzision Der verrückteste Teil: Die Genauigkeit verändert sich kaum. BitNet b1.58 2B4T, ihr Flaggschiff-Modell, wurde mit 4 Billionen Tokens trainiert und schneidet wettbewerbsfähig gegen Modelle mit voller Präzision derselben Größe ab. Die Quantisierung zerstört nicht die Qualität. Sie entfernt nur den Ballast. Was das tatsächlich bedeutet: ...