إطلاق "Claude Fable 5": أقوى نموذج من Anthropic مع طبقة أمان سيبراني » مركز الأمن السيبراني للأبحاث والدراسات CCRS

في التاسع من يونيو 2026، أعلنت شركة Anthropic عن إطلاق نموذجها الأحدث والأكثر قوة حتى الآن، Claude Fable 5، ليكون متاحًا للجمهور بشكل عام. لكن الشركة اتخذت خطوة غير مألوفة عبر طرح النموذج في نسختين:

Fable 5: النسخة العامة المزوّدة بمصنّفات أمان سيبراني وبيولوجي وكيميائي.
Claude Mythos 5: النسخة المخصصة لفرق الدفاع السيبراني والبنى التحتية الحرجة، حيث تُرفع عنها القيود لتبقى قدراتها الكاملة متاحة للمستخدمين الموثوقين.

تصف Anthropic نموذج Mythos 5 بأنه أقوى نموذج للأمن السيبراني في العالم، بينما يوجّه Fable 5 أي طلبات مشبوهة إلى نموذج أضعف (Claude Opus 4.8) مع إخطار المستخدم بعملية التحويل.

آلية عمل المصنّفات الأمنية

تعمل مصنّفات Fable 5 كطبقة مراقبة مستقلة، حيث يتم رصد محاولات الاستغلال أو الهجمات السيبرانية أو حتى محاولات Jailbreak. في حال اكتشاف نشاط مشبوه، لا يرفض النموذج الطلب مباشرة، بل يحوّله إلى نموذج Opus 4.8.
من بين الفئات التي يتم حجبها: تطوير الثغرات، مهام الهجوم السيبراني (الاستطلاع، الحركة الجانبية، تجاوز الدفاعات)، إضافة إلى ما يُعرف بـ Distillation أي استخراج قدرات النموذج لتدريب نماذج منافسة.

تقييمات الصلابة والاختبارات الخارجية

أظهرت الاختبارات الداخلية أن Fable 5 نجح في منع أي تقدم في مهام الهجوم السيبراني عند تفعيل الحجب الكامل. كما أثبت مقاومة أمام 30 تقنية عامة لمحاولات الاختراق.
برنامج مكافآت الثغرات الخارجي الذي استمر أكثر من 1000 ساعة لم يتمكن من إيجاد Jailbreak شامل، بينما أشار معهد الأمن السيبراني البريطاني إلى تحقيق بعض التقدم في اختبار أولي، وهو ما اعترفت به Anthropic مؤكدة أن الهدف هو جعل أي اختراق شامل مكلفًا وبطيئًا بما يكفي لاكتشافه قبل استغلاله على نطاق واسع.

لماذا يشكل النموذج تهديدًا؟

التحذير يعود إلى تجربة Mythos Preview في أبريل الماضي ضمن مشروع Glasswing، حيث تمكن النموذج من اكتشاف واستغلال ثغرات صفرية في أنظمة تشغيل ومتصفحات رئيسية، بما في ذلك ثغرة عمرها 27 عامًا في OpenBSD، وأخرى في خادم FreeBSD NFS نتج عنها تنفيذ أوامر عن بُعد.
هذه القدرات لم تُدرّب بشكل مباشر، بل ظهرت كنتيجة لتحسينات عامة في الاستدلال والبرمجة والاستقلالية، ما يجعل النموذج قادرًا على تجاوز الدفاعات التي تعتمد على صعوبة الاستغلال أو طول الوقت اللازم لتنفيذه.

التحدي أمام فرق الدفاع

في الأسابيع الأولى من مشروع Glasswing، تمكن النموذج من اكتشاف أكثر من 10 آلاف ثغرة عالية أو حرجة الخطورة في برمجيات أساسية، منها 2000 ثغرة في منتجات Cloudflare و271 ثغرة في متصفح Firefox 150.
لكن المشكلة تكمن في أن سرعة اكتشاف الثغرات تفوق قدرة الفرق البشرية على التحقق منها وإصلاحها، حيث يستغرق إصلاح الثغرات الحرجة نحو أسبوعين في المتوسط، ما يترك نافذة زمنية يستغلها المهاجمون.
تؤكد Anthropic أن على المدافعين افتراض أن أي ثغرة حرجة يمكن أن تتحول إلى استغلال عملي خلال ساعات من الإفصاح عنها، مما يستدعي تسريع مسارات التحديث التلقائي ومعاملة ترقيات الاعتمادات البرمجية كأولوية عاجلة.

سياسات جديدة لإدارة البيانات

أعلنت Anthropic أيضًا عن سياسة جديدة تتطلب الاحتفاظ بالبيانات لمدة 30 يومًا لجميع التفاعلات مع نماذج Fable 5 وMythos 5، بهدف رصد الهجمات الجديدة ومحاولات الاختراق المتعددة. وأكدت أنها لن تستخدم هذه البيانات في التدريب أو أي أغراض غير أمنية، مع حذفها بعد انتهاء الفترة إلا إذا تطلب الأمر تحقيقًا أمنيًا أو التزامًا قانونيًا.

وسوم