تطور نماذج تدريب الذكاء الاصطناعي: من السيطرة المركزية إلى الثورة التكنولوجية في التعاون اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يعد تدريب النماذج هو المرحلة الأكثر استهلاكًا للموارد، وأعلى عتبة تقنية، حيث يحدد مباشرة الحد الأقصى لقدرة النموذج وتأثيره الفعلي في التطبيقات. بالمقارنة مع الاستدعاء الخفيف في مرحلة الاستدلال، تتطلب عملية التدريب استثمارًا مستمرًا في طاقة حسابية كبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث أنماط الهندسة المعمارية، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي نناقشه في هذه المقالة.
يعد التدريب المركز من أكثر الطرق التقليدية شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل مؤسسة واحدة داخل مجموعة عالية الأداء محليًا، بدءًا من الأجهزة، والبرامج الأساسية، ونظام جدولة المجموعات، وصولاً إلى جميع مكونات إطار التدريب التي يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. تجعل هذه البنية التحتية المتعمقة التعاون كفاءة مشاركة الذاكرة، وتزامن التدرجات، وآليات التحمل في أفضل حالاتها، ما يجعلها مناسبة جدًا لتدريب نماذج كبيرة مثل GPT و Gemini، حيث تتمتع بمزايا الكفاءة العالية والتحكم في الموارد، لكنها تعاني في الوقت نفسه من مشكلات احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الطريقة السائدة حاليًا في تدريب النماذج الكبيرة، حيث يكمن جوهره في تقسيم مهمة تدريب النموذج، ثم توزيعها على عدة آلات لتنفيذها بشكل متعاون، بهدف تجاوز قيود الحساب والتخزين في الآلة الواحدة. على الرغم من توافر الخصائص "الموزعة" من الناحية الفيزيائية، إلا أن النظام لا يزال يخضع لسيطرة وتنسيق جهة مركزية، وغالبًا ما يعمل في بيئة شبكة محلية عالية السرعة، من خلال تقنية حافلة الاتصال السريع NVLink، حيث يقوم العقدة الرئيسية بتنسيق المهام الفرعية بشكل موحد. تشمل الطرق الرئيسية ما يلي:
التوازي البياني: كل عقدة تدرب معلمات بيانات مختلفة مع مشاركة المعلمات، ويجب أن تتطابق أوزان النموذج
التوازي النموذجي: نشر أجزاء مختلفة من النموذج على عقد مختلفة لتحقيق قابلية التوسع العالية؛
تنفيذ متوازي عبر الأنابيب: تنفيذ متسلسل على مراحل، لزيادة معدل النقل؛
التوازي المتجه: تقسيم دقيق لحساب المصفوفات، مما يعزز من دقة التوازي.
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، مماثل للمدير نفسه الذي يقود عن بعد عدة موظفين في "مكاتب" للعمل معًا لإكمال المهام. في الوقت الحالي، يتم تدريب جميع النماذج الكبيرة الرائجة تقريبًا بهذه الطريقة.
اللامركزية التدريب تمثل مساراً مستقبلياً أكثر انفتاحاً ومقاومةً للرقابة. تتمثل الخصائص الأساسية في: عدة عقد غير موثوقة تعمل معاً لإنجاز مهام التدريب دون منسق مركزي، عادةً من خلال بروتوكولات تدفع توزيع المهام والتعاون، وتستخدم آليات الحوافز التشفيرية لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي يواجهها هذا النموذج:
صعوبة التوزيع والتجزئة للأجهزة المتنوعة: من الصعب تنسيق الأجهزة المتنوعة، وكفاءة تقسيم المهام منخفضة؛
عنق الزجاجة في كفاءة الاتصال: الاتصال الشبكي غير مستقر، وعنق الزجاجة في مزامنة التدرج واضح؛
عدم وجود تنفيذ موثوق: نقص في بيئة التنفيذ الموثوقة، مما يجعل من الصعب التحقق مما إذا كانت العقدة تشارك فعلاً في الحساب؛
نقص التنسيق الموحد: لا يوجد جهاز توجيه مركزي، توزيع المهام، وآلية التراجع عن الاستثناءات معقدة.
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين العالميين، يساهم كل منهم بقوة حسابية لتدريب النموذج بشكل تعاوني، لكن "التدريب اللامركزي الكبير القابل للتطبيق حقًا" لا يزال تحديًا هندسيًا منهجيًا، يتضمن بنية النظام، بروتوكولات الاتصال، أمان التشفير، الآليات الاقتصادية، والتحقق من النموذج على عدة مستويات، لكن ما إذا كان يمكن "التعاون بشكل فعال + تحفيز الأمانة + النتائج الصحيحة" لا يزال في مرحلة استكشاف النماذج الأولية المبكرة.
التعلم الفيدرالي كونه شكل انتقالي بين التوزيع واللامركزية، يركز على الاحتفاظ بالبيانات محليًا، وتجميع معلمات النموذج مركزيًا، وهو مناسب للسيناريوهات التي تركز على الامتثال للخصوصية. يمتلك التعلم الفيدرالي هيكل هندسي للتدريب الموزع وقدرة على التعاون المحلي، وفي الوقت نفسه يتمتع بمزايا توزيع البيانات في التدريب اللامركزي، ولكنه لا يزال يعتمد على طرف موثوق للتنسيق، ولا يتمتع بخصائص مفتوحة تمامًا ومقاومة للرقابة. يمكن اعتباره "لامركزية خاضعة للرقابة" في سياقات الامتثال للخصوصية، حيث تكون المهام التدريبية، وبنية الثقة، وآلية الاتصال أكثر اعتدالًا، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
جدول مقارنة شامل لنماذج تدريب الذكاء الاصطناعي (البنية التحتية × الحوافز الثقة × ميزات التطبيق)
اللامركزية تدريب الحدود، الفرص والواقع
من حيث نمط التدريب، فإن التدريب اللامركزي ليس مناسبًا لجميع أنواع المهام. في بعض السيناريوهات، بسبب هيكل المهمة المعقد، ومتطلبات الموارد العالية جدًا، أو صعوبة التعاون، فإنه بطبيعته غير مناسب لإكماله بكفاءة بين نقاط غير موثوقة و متنوعة. على سبيل المثال، غالبًا ما يعتمد تدريب النماذج الكبيرة على ذاكرة وصول عشوائي عالية، وزمن استجابة منخفض، وعرض نطاق ترددي عالٍ، مما يجعل من الصعب تقسيمه ومزامنته بفعالية في الشبكات المفتوحة؛ كما أن المهام التي تتطلب خصوصية البيانات وقيود السيادة تكون مقيدة بقوانين الامتثال والقيود الأخلاقية، ولا يمكن مشاركتها بشكل مفتوح؛ بينما المهام التي تفتقر إلى حوافز التعاون تفتقر إلى الدافع الخارجي للمشاركة. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو مفهوم زائف. في الواقع، تُظهر أنواع المهام الهيكلية الخفيفة، وسهلة التوازي، والقابلة للتحفيز، آفاق تطبيقية واضحة للتدريب اللامركزي. بما في ذلك، ولكن لا تقتصر على: ضبط LoRA، مهام التدريب اللاحق المتعلق بمحاذاة السلوك، تدريب وتوسيم البيانات عبر الحشود، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، وكذلك مشاهد التدريب التعاوني بمشاركة الأجهزة الطرفية. هذه المهام تتميز بشكل عام بارتفاع التوازي، وانخفاض الترابط، وقدرتها على تحمل قوة حسابية غير متجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني عبر شبكات P2P، وبروتوكولات Swarm، والمحسنات الموزعة.
اللامركزية تدريب المهام التكيف العامة
اللامركزية تدريب المشاريع الكلاسيكية التحليل
في الوقت الحالي، تشمل المشاريع الرئيسية الممثلة في مجال التدريب اللامركزي والتعلم الفيدرالي على blockchain كل من Prime Intellect و Pluralis.ai و Gensyn و Nous Research و Flock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect و Nous Research و Pluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، مما يمثل الاتجاهات الرائدة في البحث النظري الحالي؛ بينما مسارات تنفيذ Gensyn و Flock.io واضحة نسبيًا، وقد بدأنا نرى تقدمًا هندسيًا أوليًا. ستقوم هذه المقالة بتحليل التقنيات الأساسية وهياكل الهندسة وراء هذه المشاريع الخمسة، وستتناول أيضًا الفروقات والعلاقات التكميلية بينها في نظام تدريب الذكاء الاصطناعي اللامركزي.
Prime Intellect: رائد الشبكات التعاونية للتعلم المعزز القابل للتحقق من المسارات التدريبية
تسعى Prime Intellect إلى بناء شبكة تدريب AI تعتمد على اللامركزية لا تتطلب الثقة، مما يسمح لأي شخص بالمشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهمته الحسابية. تأمل Prime Intellect من خلال ثلاثة وحدات PRIME-RL + TOPLOC + SHARDCAST إنشاء نظام تدريب AI لامركزي يتمتع بالتحقق، والانفتاح، وآلية تحفيز كاملة.
أولاً، هيكل بروتوكول Prime Intellect وقيمة الوحدات الأساسية
ثانياً، شرح آلية التدريب الرئيسية لـ Prime Intellect
PRIME-RL: بنية مهام التعلم المعزز غير المتزامن المفككة
PRIME-RL هو إطار نمذجة المهام والتنفيذ المخصص من Prime Intellect لسيناريوهات التدريب اللامركزية، مصمم خصيصًا للشبكات المتنوعة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف تكييف أولوي، ويفصل بشكل هيكلي بين عملية التدريب والاستدلال ورفع الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات معيارية وآليات التحقق والتجميع. بالمقارنة مع عمليات التعلم الخاضعة للإشراف التقليدية، فإن PRIME-RL أكثر ملاءمة لتنفيذ التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام ويؤسس لدعم المهام المتعددة بالتوازي وتطور الاستراتيجيات.
TOPLOC: آلية التحقق من سلوك التدريب خفيفة الوزن
TOPLOC هو آلية أساسية للتحقق من التدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كان عقدة ما قد أكملت فعلاً تعلم استراتيجية فعالة بناءً على بيانات الملاحظة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج الكامل، بل يكمل التحقق الهيكلي الخفيف من خلال تحليل "تسلسل الملاحظات ↔ تحديث الاستراتيجية" بين المسارات المحلية المتسقة. إنها المرة الأولى التي يتم فيها تحويل مسارات السلوك خلال عملية التدريب إلى كائنات يمكن التحقق منها، مما يمثل ابتكارًا رئيسيًا لتحقيق توزيع مكافآت التدريب دون الحاجة إلى الثقة، ويوفر مسارًا قابلًا للتطبيق لبناء شبكة تدريب تعاونية لامركزية يمكن تدقيقها وتحفيزها.
SHARDCAST: بروتوكول تجميع الوزن غير المتزامن والانتشار
SHARDCAST هو بروتوكول لنشر الوزن والتجميع مصمم بواسطة Prime Intellect، ومخصص لتحسين البيئة الشبكية الحقيقية التي تتسم باللامركزية، والقيود في النطاق الترددي، وتغير حالة العقد. يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية باستمرار في حالة عدم التزامن، مما يحقق تقارب وزني تدريجي وتطور متعدد النسخ. مقارنة بأساليب AllReduce المركزية أو المتزامنة، فإن SHARDCAST يعزز بشكل ملحوظ قابلية التوسع والقدرة على تحمل الأخطاء في التدريب اللامركزي، ويعتبر الأساس الرئيسي لبناء توافق وزني مستقر وتدريب مستمر متكرر.
OpenDiLoCo: إطار الاتصال المتناثر غير المتزامن
OpenDiLoCo هو إطار تحسين الاتصال المستقل الذي تم تنفيذه وفتحه من قبل فريق Prime Intellect بناءً على مفهوم DiLoCo الذي اقترحته DeepMind، وقد تم تصميمه خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد. يعتمد هيكله على التوازي في البيانات، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للتزامن العالمي ويعتمد فقط على العقد المجاورة المحلية لإكمال تدريب النموذج التعاوني. مع الجمع بين التحديثات غير المتزامنة وآلية تحمل نقاط التوقف، يجعل OpenDiLoCo وحدات معالجة الرسوميات الاستهلاكية والأجهزة الطرفية قادرة على المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير قابلية المشاركة في التدريب التعاوني العالمي، ويعد أحد البنى التحتية الأساسية للاتصال لبناء شبكة تدريب لامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL هو مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية ، تهدف إلى حل الاختناقات في التكيف التي تعاني منها المكتبات التقليدية في الأجهزة المتنوعة والشبكات ذات النطاق الترددي المنخفض. يدعم PCCL الطوبولوجيا النادرة ، وضغط التدرجات ، والتزامن منخفض الدقة واستعادة النقاط ، ويمكن تشغيله على وحدات معالجة الرسوميات المستخدمة في استهلاك الطاقة والعقد غير المستقرة ، وهو المكون الأساسي الذي يدعم القدرة على الاتصال غير المتزامن لبروتوكول OpenDiLoCo. إنه يعزز بشكل ملحوظ قدرة تحمل النطاق الترددي لشبكة التدريب وتوافق الأجهزة ، مما يفتح "آخر كيلومتر" من البنية التحتية للاتصالات لبناء شبكة تدريب تعاونية مفتوحة حقًا وغير موثوقة.
ثالثاً، شبكة Prime Intellect للتحفيز وتقسيم الأدوار
بني Prime Intellect شبكة تدريب قابلة للتحقق، بدون إذن، مزودة بآلية تحفيز اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول بناءً على ثلاث فئات من الأدوار الأساسية:
عقد تدريب: تنفيذ التدريب المحلي، تقديم تحديثات الوزن ومسارات الملاحظة
عقد التحقق: استخدام آلية TOPLOC للتحقق من صحة سلوك التدريب والمشاركة في حساب المكافآت وتجميع الاستراتيجيات
تتضمن العملية الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان (SHARDCAST) وإصدار المكافآت، مما يشكل حلقة تحفيزية تدور حول "السلوك التدريبي الحقيقي".
رابعاً، INTELLECT-2: إطلاق أول نموذج تدريب قابل للتحقق اللامركزي
أصدرت Prime Intellect INTELLECT-2 في مايو 2025، وهو أول نموذج كبير للتعلم المعزز في العالم تم تدريبه من خلال التعاون بين العقد اللامركزية غير الموثوقة وغير المتزامنة، ويبلغ حجم المعلمات 32B. تم تصميم نموذج INTELLECT-2 من قبل مجموعة من ثلاثة.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تطور نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى التعاون اللامركزي
تطور نماذج تدريب الذكاء الاصطناعي: من السيطرة المركزية إلى الثورة التكنولوجية في التعاون اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يعد تدريب النماذج هو المرحلة الأكثر استهلاكًا للموارد، وأعلى عتبة تقنية، حيث يحدد مباشرة الحد الأقصى لقدرة النموذج وتأثيره الفعلي في التطبيقات. بالمقارنة مع الاستدعاء الخفيف في مرحلة الاستدلال، تتطلب عملية التدريب استثمارًا مستمرًا في طاقة حسابية كبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث أنماط الهندسة المعمارية، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي نناقشه في هذه المقالة.
يعد التدريب المركز من أكثر الطرق التقليدية شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل مؤسسة واحدة داخل مجموعة عالية الأداء محليًا، بدءًا من الأجهزة، والبرامج الأساسية، ونظام جدولة المجموعات، وصولاً إلى جميع مكونات إطار التدريب التي يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. تجعل هذه البنية التحتية المتعمقة التعاون كفاءة مشاركة الذاكرة، وتزامن التدرجات، وآليات التحمل في أفضل حالاتها، ما يجعلها مناسبة جدًا لتدريب نماذج كبيرة مثل GPT و Gemini، حيث تتمتع بمزايا الكفاءة العالية والتحكم في الموارد، لكنها تعاني في الوقت نفسه من مشكلات احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الطريقة السائدة حاليًا في تدريب النماذج الكبيرة، حيث يكمن جوهره في تقسيم مهمة تدريب النموذج، ثم توزيعها على عدة آلات لتنفيذها بشكل متعاون، بهدف تجاوز قيود الحساب والتخزين في الآلة الواحدة. على الرغم من توافر الخصائص "الموزعة" من الناحية الفيزيائية، إلا أن النظام لا يزال يخضع لسيطرة وتنسيق جهة مركزية، وغالبًا ما يعمل في بيئة شبكة محلية عالية السرعة، من خلال تقنية حافلة الاتصال السريع NVLink، حيث يقوم العقدة الرئيسية بتنسيق المهام الفرعية بشكل موحد. تشمل الطرق الرئيسية ما يلي:
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، مماثل للمدير نفسه الذي يقود عن بعد عدة موظفين في "مكاتب" للعمل معًا لإكمال المهام. في الوقت الحالي، يتم تدريب جميع النماذج الكبيرة الرائجة تقريبًا بهذه الطريقة.
اللامركزية التدريب تمثل مساراً مستقبلياً أكثر انفتاحاً ومقاومةً للرقابة. تتمثل الخصائص الأساسية في: عدة عقد غير موثوقة تعمل معاً لإنجاز مهام التدريب دون منسق مركزي، عادةً من خلال بروتوكولات تدفع توزيع المهام والتعاون، وتستخدم آليات الحوافز التشفيرية لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي يواجهها هذا النموذج:
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين العالميين، يساهم كل منهم بقوة حسابية لتدريب النموذج بشكل تعاوني، لكن "التدريب اللامركزي الكبير القابل للتطبيق حقًا" لا يزال تحديًا هندسيًا منهجيًا، يتضمن بنية النظام، بروتوكولات الاتصال، أمان التشفير، الآليات الاقتصادية، والتحقق من النموذج على عدة مستويات، لكن ما إذا كان يمكن "التعاون بشكل فعال + تحفيز الأمانة + النتائج الصحيحة" لا يزال في مرحلة استكشاف النماذج الأولية المبكرة.
التعلم الفيدرالي كونه شكل انتقالي بين التوزيع واللامركزية، يركز على الاحتفاظ بالبيانات محليًا، وتجميع معلمات النموذج مركزيًا، وهو مناسب للسيناريوهات التي تركز على الامتثال للخصوصية. يمتلك التعلم الفيدرالي هيكل هندسي للتدريب الموزع وقدرة على التعاون المحلي، وفي الوقت نفسه يتمتع بمزايا توزيع البيانات في التدريب اللامركزي، ولكنه لا يزال يعتمد على طرف موثوق للتنسيق، ولا يتمتع بخصائص مفتوحة تمامًا ومقاومة للرقابة. يمكن اعتباره "لامركزية خاضعة للرقابة" في سياقات الامتثال للخصوصية، حيث تكون المهام التدريبية، وبنية الثقة، وآلية الاتصال أكثر اعتدالًا، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
جدول مقارنة شامل لنماذج تدريب الذكاء الاصطناعي (البنية التحتية × الحوافز الثقة × ميزات التطبيق)
اللامركزية تدريب الحدود، الفرص والواقع
من حيث نمط التدريب، فإن التدريب اللامركزي ليس مناسبًا لجميع أنواع المهام. في بعض السيناريوهات، بسبب هيكل المهمة المعقد، ومتطلبات الموارد العالية جدًا، أو صعوبة التعاون، فإنه بطبيعته غير مناسب لإكماله بكفاءة بين نقاط غير موثوقة و متنوعة. على سبيل المثال، غالبًا ما يعتمد تدريب النماذج الكبيرة على ذاكرة وصول عشوائي عالية، وزمن استجابة منخفض، وعرض نطاق ترددي عالٍ، مما يجعل من الصعب تقسيمه ومزامنته بفعالية في الشبكات المفتوحة؛ كما أن المهام التي تتطلب خصوصية البيانات وقيود السيادة تكون مقيدة بقوانين الامتثال والقيود الأخلاقية، ولا يمكن مشاركتها بشكل مفتوح؛ بينما المهام التي تفتقر إلى حوافز التعاون تفتقر إلى الدافع الخارجي للمشاركة. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو مفهوم زائف. في الواقع، تُظهر أنواع المهام الهيكلية الخفيفة، وسهلة التوازي، والقابلة للتحفيز، آفاق تطبيقية واضحة للتدريب اللامركزي. بما في ذلك، ولكن لا تقتصر على: ضبط LoRA، مهام التدريب اللاحق المتعلق بمحاذاة السلوك، تدريب وتوسيم البيانات عبر الحشود، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، وكذلك مشاهد التدريب التعاوني بمشاركة الأجهزة الطرفية. هذه المهام تتميز بشكل عام بارتفاع التوازي، وانخفاض الترابط، وقدرتها على تحمل قوة حسابية غير متجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني عبر شبكات P2P، وبروتوكولات Swarm، والمحسنات الموزعة.
اللامركزية تدريب المهام التكيف العامة
اللامركزية تدريب المشاريع الكلاسيكية التحليل
في الوقت الحالي، تشمل المشاريع الرئيسية الممثلة في مجال التدريب اللامركزي والتعلم الفيدرالي على blockchain كل من Prime Intellect و Pluralis.ai و Gensyn و Nous Research و Flock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect و Nous Research و Pluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، مما يمثل الاتجاهات الرائدة في البحث النظري الحالي؛ بينما مسارات تنفيذ Gensyn و Flock.io واضحة نسبيًا، وقد بدأنا نرى تقدمًا هندسيًا أوليًا. ستقوم هذه المقالة بتحليل التقنيات الأساسية وهياكل الهندسة وراء هذه المشاريع الخمسة، وستتناول أيضًا الفروقات والعلاقات التكميلية بينها في نظام تدريب الذكاء الاصطناعي اللامركزي.
Prime Intellect: رائد الشبكات التعاونية للتعلم المعزز القابل للتحقق من المسارات التدريبية
تسعى Prime Intellect إلى بناء شبكة تدريب AI تعتمد على اللامركزية لا تتطلب الثقة، مما يسمح لأي شخص بالمشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهمته الحسابية. تأمل Prime Intellect من خلال ثلاثة وحدات PRIME-RL + TOPLOC + SHARDCAST إنشاء نظام تدريب AI لامركزي يتمتع بالتحقق، والانفتاح، وآلية تحفيز كاملة.
أولاً، هيكل بروتوكول Prime Intellect وقيمة الوحدات الأساسية
ثانياً، شرح آلية التدريب الرئيسية لـ Prime Intellect
PRIME-RL: بنية مهام التعلم المعزز غير المتزامن المفككة
PRIME-RL هو إطار نمذجة المهام والتنفيذ المخصص من Prime Intellect لسيناريوهات التدريب اللامركزية، مصمم خصيصًا للشبكات المتنوعة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف تكييف أولوي، ويفصل بشكل هيكلي بين عملية التدريب والاستدلال ورفع الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات معيارية وآليات التحقق والتجميع. بالمقارنة مع عمليات التعلم الخاضعة للإشراف التقليدية، فإن PRIME-RL أكثر ملاءمة لتنفيذ التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام ويؤسس لدعم المهام المتعددة بالتوازي وتطور الاستراتيجيات.
TOPLOC: آلية التحقق من سلوك التدريب خفيفة الوزن
TOPLOC هو آلية أساسية للتحقق من التدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كان عقدة ما قد أكملت فعلاً تعلم استراتيجية فعالة بناءً على بيانات الملاحظة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج الكامل، بل يكمل التحقق الهيكلي الخفيف من خلال تحليل "تسلسل الملاحظات ↔ تحديث الاستراتيجية" بين المسارات المحلية المتسقة. إنها المرة الأولى التي يتم فيها تحويل مسارات السلوك خلال عملية التدريب إلى كائنات يمكن التحقق منها، مما يمثل ابتكارًا رئيسيًا لتحقيق توزيع مكافآت التدريب دون الحاجة إلى الثقة، ويوفر مسارًا قابلًا للتطبيق لبناء شبكة تدريب تعاونية لامركزية يمكن تدقيقها وتحفيزها.
SHARDCAST: بروتوكول تجميع الوزن غير المتزامن والانتشار
SHARDCAST هو بروتوكول لنشر الوزن والتجميع مصمم بواسطة Prime Intellect، ومخصص لتحسين البيئة الشبكية الحقيقية التي تتسم باللامركزية، والقيود في النطاق الترددي، وتغير حالة العقد. يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية باستمرار في حالة عدم التزامن، مما يحقق تقارب وزني تدريجي وتطور متعدد النسخ. مقارنة بأساليب AllReduce المركزية أو المتزامنة، فإن SHARDCAST يعزز بشكل ملحوظ قابلية التوسع والقدرة على تحمل الأخطاء في التدريب اللامركزي، ويعتبر الأساس الرئيسي لبناء توافق وزني مستقر وتدريب مستمر متكرر.
OpenDiLoCo: إطار الاتصال المتناثر غير المتزامن
OpenDiLoCo هو إطار تحسين الاتصال المستقل الذي تم تنفيذه وفتحه من قبل فريق Prime Intellect بناءً على مفهوم DiLoCo الذي اقترحته DeepMind، وقد تم تصميمه خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد. يعتمد هيكله على التوازي في البيانات، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للتزامن العالمي ويعتمد فقط على العقد المجاورة المحلية لإكمال تدريب النموذج التعاوني. مع الجمع بين التحديثات غير المتزامنة وآلية تحمل نقاط التوقف، يجعل OpenDiLoCo وحدات معالجة الرسوميات الاستهلاكية والأجهزة الطرفية قادرة على المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير قابلية المشاركة في التدريب التعاوني العالمي، ويعد أحد البنى التحتية الأساسية للاتصال لبناء شبكة تدريب لامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL هو مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية ، تهدف إلى حل الاختناقات في التكيف التي تعاني منها المكتبات التقليدية في الأجهزة المتنوعة والشبكات ذات النطاق الترددي المنخفض. يدعم PCCL الطوبولوجيا النادرة ، وضغط التدرجات ، والتزامن منخفض الدقة واستعادة النقاط ، ويمكن تشغيله على وحدات معالجة الرسوميات المستخدمة في استهلاك الطاقة والعقد غير المستقرة ، وهو المكون الأساسي الذي يدعم القدرة على الاتصال غير المتزامن لبروتوكول OpenDiLoCo. إنه يعزز بشكل ملحوظ قدرة تحمل النطاق الترددي لشبكة التدريب وتوافق الأجهزة ، مما يفتح "آخر كيلومتر" من البنية التحتية للاتصالات لبناء شبكة تدريب تعاونية مفتوحة حقًا وغير موثوقة.
ثالثاً، شبكة Prime Intellect للتحفيز وتقسيم الأدوار
بني Prime Intellect شبكة تدريب قابلة للتحقق، بدون إذن، مزودة بآلية تحفيز اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول بناءً على ثلاث فئات من الأدوار الأساسية:
تتضمن العملية الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان (SHARDCAST) وإصدار المكافآت، مما يشكل حلقة تحفيزية تدور حول "السلوك التدريبي الحقيقي".
رابعاً، INTELLECT-2: إطلاق أول نموذج تدريب قابل للتحقق اللامركزي
أصدرت Prime Intellect INTELLECT-2 في مايو 2025، وهو أول نموذج كبير للتعلم المعزز في العالم تم تدريبه من خلال التعاون بين العقد اللامركزية غير الموثوقة وغير المتزامنة، ويبلغ حجم المعلمات 32B. تم تصميم نموذج INTELLECT-2 من قبل مجموعة من ثلاثة.