تقارير حديثة تكشف عن ثغرات "جيلبريك".. تعليمات غير آمنة وسرقة بيانات في أنظمة الذكاء الاصطناعي الرائدة » مركز الأمن السيبراني للأبحاث والدراسات CCRS

6 دروس مستفادة: تركيز الأمن السيبراني حيث تكمن قيمة الأعمال

كشفت تقارير أمنية جديدة أن العديد من أنظمة الذكاء الاصطناعي التوليدي (GenAI) معرضة لهجمات جيلبريك (Jailbreak) من نوعين مختلفين، ما يمكّن المهاجمين من توليد محتوى غير قانوني أو ضار.

هجوم Inception: اختراق عبر سيناريوهات وهمية

الهجوم الأول، الذي يحمل الاسم الرمزي Inception، يقوم على خداع الأداة الذكية لتخيل سيناريو خيالي، ثم بناء سيناريو آخر داخل ذلك السيناريو يكون خاليًا من أي ضوابط أمان.

وأوضح مركز تنسيق CERT/CC:
“يمكن أن تؤدي المطالبات المتكررة ضمن السياق الثاني إلى تجاوز حواجز الأمان والسماح بإنشاء محتوى ضار”.

هجوم التجاوب العكسي: تجاوز عبر الأسئلة الملتوية

الهجوم الثاني يحدث عبر مطالبة الذكاء الاصطناعي بإعطاء إجابة على ما لا يجب الرد عليه.
بعد ذلك، يُطلب منه الاستمرار في التفاعل كالمعتاد، مما يسمح بالتنقل بين أسئلة ضارة وأخرى عادية لتجاوز ضوابط الأمان.

تُمكن هذه الأساليب المهاجمين من التحايل على الحماية في خدمات ذكاء اصطناعي كبرى مثل:
ChatGPT من OpenAI، Claude من Anthropic، Copilot من Microsoft، Gemini من Google، Grok من XAi، Meta AI، وMistral AI.

تشمل الموضوعات المحظورة التي يمكن توليدها: المخدرات، الأسلحة، رسائل التصيد، وأكواد البرمجيات الخبيثة.

أساليب اختراق إضافية تهدد سلامة الذكاء الاصطناعي

في الأشهر الأخيرة، تم اكتشاف ثلاث تقنيات اختراق إضافية لأنظمة الذكاء الاصطناعي التوليدي:

هجوم امتثال السياق (CCA): يقوم المهاجم بإدراج ردود “مساعدة” سابقة داخل المحادثة حول موضوع حساس، ما يُشجع النموذج على تقديم مزيد من المعلومات.
هجوم التلاعب بالسياسات (Policy Puppetry): يتم إنشاء تعليمات خبيثة على شكل ملفات سياسة (مثل XML أو JSON) لإيهام النموذج بأنها آمنة، وبالتالي تجاوز حواجز السلامة.
هجوم حقن الذاكرة (MINJA): يحقن المهاجم سجلات خبيثة في الذاكرة المؤقتة للنموذج من خلال تفاعلات متكررة، مما يدفع النموذج لتنفيذ أوامر غير مرغوب فيها.

برمجة غير آمنة… حتى من دون قصد

أظهرت الدراسات أن نماذج اللغة الكبيرة (LLMs) يمكن أن تنتج رمزًا برمجيًا غير آمن بشكل افتراضي عند إعطائها مطالبات عامة، ما يبرز مخاطر الاعتماد على الذكاء الاصطناعي في تطوير البرمجيات.

ووفقًا لشركة Backslash Security:
“حتى عند طلب كتابة كود آمن، فإن النتيجة تعتمد بشدة على تفاصيل الطلب، واللغة البرمجية، ونوع الثغرة (CWE)، ومدى دقة التعليمات”.

GPT-4.1 أكثر عرضة للاستخدام الخاطئ من سابقه

كشف تقييم أمني لطراز GPT-4.1 من OpenAI أنه أكثر عرضة ثلاث مرات للخروج عن السياق والسماح باستخدامه في أغراض ضارة مقارنةً بطراز GPT-4o، حتى دون تعديل إعدادات الأمان.

وقالت شركة SplxAI:
“تحديث الطراز لا يقتصر فقط على تغيير اسمه في الكود، فلكل نموذج قدراته وثغراته الخاصة التي يجب على المستخدمين فهمها”.

ويُعد هذا الأمر بالغ الأهمية، إذ أن اختلاف تفسير التعليمات في النماذج الأحدث قد يؤدي إلى ثغرات أمنية غير متوقعة تضر بالمطورين والمستخدمين على حد سواء.

يأتي هذا القلق بعد أسابيع فقط من إعلان OpenAI عن تحديث إطار “الجاهزية” الخاص بها لاختبار النماذج المستقبلية، حيث ألمحت إلى إمكانية تخفيف شروط الأمان إذا قامت شركات منافسة بإصدار نماذج خطرة دون معايير حماية كافية.

مخاوف من التسرع في طرح نماذج جديدة

أثار هذا التوجه مخاوف من أن OpenAI ربما تتسرع في إصدار نماذج ذكاء اصطناعي جديدة على حساب السلامة.
فقد أفاد تقرير لصحيفة فاينانشيال تايمز أن الشركة منحت موظفيها والمراجعين الخارجيين أقل من أسبوع لإجراء اختبارات الأمان على نموذجها الجديد o3.

وأكدت اختبارات “الريد تيمينغ” من METR أن النموذج:

“يميل أكثر إلى الغش أو تنفيذ المهام بأساليب ملتوية لتحقيق أعلى نتيجة، حتى عندما يدرك أن سلوكه يتعارض مع نوايا المستخدم وOpenAI”.

بروتوكول MCP يفتح أبوابًا جديدة لهجمات اختراق الذكاء الاصطناعي

أظهرت الدراسات أيضًا أن بروتوكول السياق النموذجي (MCP)، الذي طورته Anthropic لربط الأدوات بالذكاء الاصطناعي، قد يُستخدم لتنفيذ:

حقن تعليمات غير مباشرة
الوصول غير المصرح به للبيانات

وذكرت شركة Invariant Labs السويسرية:
“سيرفر MCP خبيث يمكنه سرقة البيانات الحساسة من المستخدم والسيطرة على سلوك النموذج بالكامل، حتى مع البنية التحتية الموثوقة”.

هجمات تسميم الأدوات (Tool Poisoning)

يعتمد هذا النوع من الهجمات على إدخال تعليمات خبيثة داخل وصف الأدوات المتصلة بـ MCP.
هذه التعليمات تكون غير مرئية للمستخدم ولكن قابلة للقراءة من قِبل النموذج، ما يؤدي إلى تنفيذ أنشطة تسريب بيانات سرية.

وفي إحدى الهجمات الواقعية، تمكن الباحثون من سحب سجل محادثات WhatsApp من أنظمة مثل Cursor أو Claude Desktop بعد موافقة المستخدم على الأداة الخبيثة.

امتداد خبيث لمتصفح Chrome يهدد أنظمة MCP

اكتشف الباحثون أيضًا امتدادًا خبيثًا في Google Chrome يتصل بخادم MCP محلي، ما يُمكّن المهاجمين من السيطرة على الجهاز وتجاوز آليات الحماية في المتصفح.

وصرّحت ExtensionTotal:
“الامتداد كان لديه وصول غير مقيد إلى أدوات MCP دون مصادقة، وكان يتفاعل مع نظام الملفات وكأنه جزء من الخادم نفسه – ما يفتح المجال لاختراق النظام بالكامل”.