أسلوب اختراق جديد باسم “غرفة الصدى” يخدع نماذج الذكاء الاصطناعي الكبيرة لإنتاج محتوى ضار

حذّر باحثون في مجال الأمن السيبراني من طريقة اختراق مبتكرة تُدعى “Echo Chamber” أو “غرفة الصدى”، يمكن استخدامها لخداع نماذج اللغة الكبيرة (LLMs) من شركات مثل OpenAI وGoogle لإنتاج محتوى ضار، رغم إجراءات الحماية الموضوعة داخل هذه النماذج.

وقال باحثون:

“خلافًا لأساليب الاختراق التقليدية التي تعتمد على إعادة صياغة خبيثة أو تشويش في الأحرف، تقوم غرفة الصدى بتسليح النموذج عبر إشارات غير مباشرة، وتوجيه دلالي، واستدلال متعدد المراحل.”

وأضافوا أن هذه الطريقة “تُحدث تأثيرًا دقيقًا لكن عميقًا في الحالة الداخلية للنموذج، مما يؤدي به تدريجيًا إلى تقديم استجابات مخالفة للسياسات الأخلاقية والأمنية.”


تجاوزات أمنية رغم الحواجز

ورغم أن النماذج الذكية الحديثة مزودة بسلسلة من آليات الحماية لمنع حقن الأوامر الخبيثة (Prompt Injections) وعمليات الاختراق، إلا أن هذا البحث الجديد يُثبت وجود تقنيات يسهل تنفيذها دون حاجة إلى خبرة تقنية متقدمة، وتحقق نسب نجاح عالية.

ويبرز التقرير أيضًا التحديات المستمرة في تطوير نماذج ذكاء اصطناعي أخلاقية يمكنها التمييز بدقة بين الموضوعات المقبولة وغير المقبولة، حيث يمكن خداع هذه النماذج بطريقة تُعرف بـ “الاختراق التصاعدي” (Crescendo Jailbreaking)، وهي سلسلة من التفاعلات التدريجية تبدأ بطلبات بريئة وتنتهي بأسئلة خبيثة تدفع النموذج إلى إنتاج محتوى غير لائق.

كما توجد طريقة تُعرف بـ “الاختراق الكثيف” (Many-shot Jailbreak)، حيث يُغمر النموذج بعدد كبير من الأمثلة المخترقة داخل نافذة السياق الخاصة به، مما يدفعه إلى الاستمرار في النمط ذاته وإنتاج محتوى ضار.


كيف تعمل “غرفة الصدى”؟

وفقًا لـ NeuralTrust، تعتمد طريقة Echo Chamber على مزيج من تسميم السياق (Context Poisoning) والاستدلال متعدد الخطوات، حيث يتم إخفاء النية الحقيقية للمهاجم داخل محادثة تبدو طبيعية، ثم يتم توجيه النموذج تدريجيًا نحو الهدف الخبيث دون إعطاء أي إشارات مباشرة إلى ذلك.

“الفرق بين Crescendo وEcho Chamber هو أن الأولى تقود المحادثة من البداية، بينما Echo Chamber تدفع النموذج نفسه ليملأ الفجوات ويقود المحادثة لاحقًا باستخدام استجاباته الخاصة”، بحسب العبيد.

وأوضح التقرير أن الطريقة تعتمد على زرع محادثات خفية في البداية، لتؤثر على استجابات النموذج لاحقًا، ما يؤدي إلى خلق حلقة تغذية راجعة تُضخم الرسائل الضمنية المؤذية وتُضعف دفاعات السلامة المدمجة في النموذج تدريجيًا.

وفي بيئة تقييم خاضعة للرقابة، حققت طريقة Echo Chamber معدل نجاح تجاوز 90% عند اختبارها على مواضيع مثل التمييز الجنسي، والعنف، وخطاب الكراهية، والمحتوى الإباحي، كما وصلت نسبة النجاح إلى 80% في فئات التضليل وإيذاء النفس.

“هذا الهجوم يكشف ثغرة حرجة في جهود مواءمة النماذج مع المعايير الأخلاقية، فكلما أصبحت النماذج أكثر قدرة على الاستدلال المعقد، زادت قابليتها للاستغلال غير المباشر”، بحسب NeuralTrust.


استغلال الذكاء الاصطناعي كوسيلة للهجوم

تأتي هذه التطورات في الوقت الذي كشفت فيه شركة Cato Networks عن إثبات مفهومي (PoC) لهجوم يستغل بروتوكول MCP التابع لشركة Atlassian والمتكامل مع Jira Service Management، حيث يمكن للمهاجم تمرير أمر خبيث داخل تذكرة دعم يتم معالجتها من قبل مهندس دعم باستخدام أدوات MCP، مما يؤدي إلى تنفيذ هجوم حقن أوامر.

وأطلقت الشركة على هذا النوع من الهجمات اسم “العيش عبر الذكاء الاصطناعي” (Living off AI)، إذ يتم استغلال نظام ذكاء اصطناعي ينفذ مدخلات غير موثوقة دون عزله بالشكل الكافي، فيتمكن المهاجم من الوصول إلى صلاحيات متقدمة دون الحاجة إلى تسجيل الدخول أو المصادقة.

وقال الباحثون:

“المهاجم لم يدخل إلى نظام MCP مباشرة، بل استُخدم مهندس الدعم كوسيط غير مدرك ينفذ التعليمات الخبيثة دون قصد.”

محمد وهبى
محمد وهبى
المقالات: 303

اترك ردّاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *


The reCAPTCHA verification period has expired. Please reload the page.