أعلنت شركة Anthropic المتخصصة في الذكاء الاصطناعي عن تفاصيل ما أطلقت عليه اسم “محور المساعد” (Assistant Axis)، وهو نمط من النشاط العصبي داخل نماذج اللغة الكبيرة (LLMs) يُعتقد أنه يحدد الهوية الافتراضية للنموذج باعتباره مساعداً ودوداً وفعّالاً. هذا المحور يمثل البنية الداخلية التي تضبط سلوك النموذج ليبقى في إطار المساعدة بدلاً من الانجراف إلى شخصيات أخرى قد تكون غير مرغوبة أو ضارة.
بحسب الشركة، فإن هذا المحور يتشكل غالباً خلال مرحلة التدريب اللاحق (Post-Training) عندما يتم تعليم النموذج لعب دور “المساعد”، لكن هناك احتمال أن يكون موجوداً بالفعل منذ مرحلة التدريب الأولي (Pre-Training). هذه الفرضية تفتح الباب أمام نقاش واسع حول كيفية تشكل “الهوية” داخل النماذج الذكية، وما إذا كانت جزءاً من بنيتها الأساسية أو نتيجة للتوجيه البشري لاحقاً.
آلية المراقبة والتقييد العصبي
أوضحت Anthropic أن مراقبة النشاط العصبي للنموذج على طول هذا المحور يسمح بالكشف عن أي انحراف عن شخصية المساعد نحو شخصية أخرى. على سبيل المثال، قد يبدأ النموذج في تقمص دور “فيلسوف” أو “مجادل” أو حتى “مهاجم”، وهو ما قد يؤدي إلى مخرجات غير آمنة أو مضللة.
ولمنع هذا الانجراف، طورت الشركة تقنية أطلقت عليها اسم “التقييد العصبي” (Activation Capping)، والتي تعمل على ضبط النشاط العصبي داخل النموذج بحيث يظل محصوراً في نطاق المساعد. هذه الآلية تضمن استقرار السلوك حتى في المواقف التي عادةً ما تؤدي إلى نتائج ضارة، مثل الاستفزازات أو الطلبات غير المشروعة.
أهمية الاكتشاف في سياق أمان الذكاء الاصطناعي
يمثل هذا الاكتشاف خطوة مهمة في مجال أمان الذكاء الاصطناعي، حيث يتيح للشركات والمطورين وسيلة عملية للحفاظ على اتساق هوية النماذج. فبدلاً من الاعتماد فقط على تقنيات مثل التعلم بالتعزيز من التغذية البشرية (RLHF)، يوفر “محور المساعد” إطاراً داخلياً يمكن مراقبته وضبطه بشكل مباشر.
هذا التطور يعكس أيضاً اتجاهاً متزايداً نحو تفسير النماذج (Model Interpretability)، أي القدرة على فهم كيفية عمل النماذج داخلياً بدلاً من التعامل معها كصناديق سوداء. ومن خلال هذا الفهم، يمكن تقليل المخاطر المرتبطة باستخدام الذكاء الاصطناعي في تطبيقات حساسة مثل التعليم، الصحة، أو الأمن السيبراني.
خلفيات وسياقات بحثية
تأتي هذه الخطوة في وقت تتزايد فيه المخاوف العالمية من انحرافات النماذج أو ما يُعرف بـ “Persona Drift”، حيث يمكن للنموذج أن يتبنى شخصية غير مرغوبة نتيجة لتفاعلات معينة أو مدخلات معقدة. وقد شهدت الصناعة حالات متعددة حاول فيها المستخدمون دفع النماذج إلى إنتاج محتوى ضار أو غير أخلاقي، وهو ما يبرز الحاجة إلى تقنيات مثل “محور المساعد”.
كما أن هذا المفهوم يفتح المجال أمام أبحاث جديدة حول كيفية بناء محاور أخرى داخل النماذج، مثل “محور الفيلسوف” أو “محور المبدع”، مما قد يسمح بتخصيص هوية النموذج بشكل أكثر دقة وفقاً لاحتياجات المستخدمين، لكن مع الحفاظ على الضوابط الأمنية اللازمة.






























