بئسًا... مايكروسوفت قامت بفتح مصدر إطار عمل للاستدلال يشغل نموذج لغوي كبير بقيمة 100B على وحدة معالجة مركزية واحدة. تسمى BitNet. وتقوم بما كان من المفترض أن يكون مستحيلا. لا يوجد بطاقة رسوميات. لا سحابة. لا يوجد إعداد عتادي بقيمة 10 آلاف دولار. فقط جهاز اللابتوب الخاص بك الذي يعمل بنموذج من 100 مليار معامل بسرعة قراءة بشرية. إليك كيف تسير الأمور: كل نموذج لغوي آخر يخزن الأوزان في عوامات 32-بت أو 16-بت. يستخدم BitNet 1.58 بت. الأوزان ثلاثية فقط: -1، 0، أو +1. هذا كل شيء. لا توجد عربات. لا يوجد رياضيات مصفوفية مكلفة. عمليات الأعداد الصحيحة البحتة التي تم بناء معالجك لها بالفعل. النتيجة: - نموذج 100B يعمل على معالج واحد بسرعة 5-7 رموز في الثانية - 2.37x إلى 6.17x أسرع من llama.cpp على x86 - استهلاك طاقة أقل بنسبة 82٪ على معالجات x86 - زيادة سرعة من 1.37x إلى 5.07x على جهاز ARM (جهاز MacBook الخاص بك) - انخفاض الذاكرة بمقدار 16-32 ضعف مقارنة بالنماذج ذات الدقة الكاملة الجزء الأكثر جنونا: الدقة بالكاد تتحرك. تم تدريب نموذج BitNet b1.58 2B4T على 4 تريليونات رمز ومعايير تنافسية ضد نماذج كاملة الدقة بنفس الحجم. التكميم لا يدمر الجودة. إنه فقط يزيل الانتفاخ. ماذا يعني هذا فعليا: ...