جوجل تعزز أنظمة الذكاء الاصطناعي التوليدي بحماية متعددة الطبقات ضد هجمات “حقن التلقين”

أعلنت شركة جوجل عن تنفيذ عدة إجراءات أمنية متقدمة لحماية أنظمة الذكاء الاصطناعي التوليدي الخاصة بها من هجمات “حقن التلقين غير المباشر” (Indirect Prompt Injection)، في إطار سعيها لتعزيز أمن ما يُعرف بـ”الذكاء الاصطناعي الوكيل” (Agentic AI) الذي يعتمد على تنفيذ المهام تلقائيًا بناءً على أوامر نصية.

وقال فريق أمن الذكاء الاصطناعي التوليدي في جوجل:

“على عكس هجمات الحقن المباشر التي يُدخل فيها المهاجم الأوامر الخبيثة مباشرة في الطلب، فإن هجمات الحقن غير المباشر تعتمد على إخفاء التعليمات الضارة داخل مصادر بيانات خارجية مثل رسائل البريد الإلكتروني أو المستندات أو الدعوات.”

تهدف هذه الهجمات إلى خداع النماذج الذكية ودفعها إلى تنفيذ تعليمات خبيثة أو تسريب بيانات حساسة دون علم المستخدم.

إستراتيجية دفاع متعددة الطبقات

أوضحت جوجل أنها اعتمدت نهجًا “دفاعيًا متعدد الطبقات” يهدف إلى تعقيد وتنويع العقبات أمام المهاجمين، مما يجعل تنفيذ هذه الهجمات أكثر كلفة وصعوبة. يشمل هذا النهج:

  • تعزيز متانة النماذج عبر تدريبات خاصة تجعلها أكثر قدرة على تمييز التهديدات.

  • استخدام نماذج تعلم آلي مخصصة لاكتشاف الأوامر الخبيثة.

  • تطبيق إجراءات حماية على مستوى النظام.

  • دمج أدوات إضافية في نموذج Gemini، النموذج الرئيسي للذكاء الاصطناعي التوليدي لدى جوجل.

أبرز أدوات الحماية المدمجة في Gemini:
  1. مصنفات لاكتشاف حقن التلقين: تصفّي الأوامر الخبيثة وتمنع تنفيذها.

  2. تقنية “Spotlighting”: تضيف علامات مميزة على البيانات غير الموثوقة (مثل البريد الإلكتروني)، لإجبار النموذج على تجاهل أي تعليمات مشبوهة ضمنها.

  3. تنقية Markdown وحجب الروابط المشبوهة: عبر التكامل مع خدمة Google Safe Browsing.

  4. آلية تأكيد المستخدم: تتطلب موافقة المستخدم قبل تنفيذ أي إجراء محفوف بالمخاطر.

  5. تنبيهات أمنية للمستخدمين النهائيين: تُعلمهم في حال اكتشاف محاولات حقن بالتلقين.

تهديد متطور لا يتوقف عند حد

لكن رغم هذه التدابير، حذّرت جوجل من أن المهاجمين باتوا يعتمدون على هجمات تكيفية متطورة تستخدم فرق اختبار آلي (Automated Red Teaming) لتجاوز الدفاعات واختبار فعاليتها باستمرار.

من جانبها، قالت DeepMind إن هذه الهجمات تمثل “تحديًا سيبرانيًا حقيقيًا”، حيث **تكافح النماذج أحيانًا لتمييز التعليمات الشرعية من الأوامر المضللة المزروعة داخل البيانات المسترجعة.”

وأضافت:

“الحماية من حقن التلقين غير المباشر تتطلب بناء دفاعات متكاملة في جميع طبقات نظام الذكاء الاصطناعي، بدءًا من فهم النموذج ذاته للهجوم، مرورًا بطبقة التطبيق، وصولًا إلى حماية البنية التحتية.”

أبحاث تكشف عن طرق جديدة لتجاوز الحماية

في سياق متصل، توصلت أبحاث حديثة إلى طرق جديدة للتحايل على نماذج اللغة الكبرى (LLMs) وتوليد محتوى ضار، من بينها:

  • حقن الأحرف (Character Injections): التي تربك النموذج وتؤدي إلى تفسير خاطئ للسياق.

  • استغلال الثغرات في تفسير النماذج للسياق، عبر استهداف اعتمادها المفرط على الخصائص المتعلمة.

وفي دراسة مشتركة بين Anthropic، Google DeepMind، ETH Zurich، وجامعة Carnegie Mellon، أظهرت النتائج أن النماذج اللغوية قد تكون قادرة مستقبلاً على:

  • سرقة كلمات المرور ومعلومات البطاقات الائتمانية بدقة أكبر من الأدوات التقليدية.

  • تصميم برمجيات خبيثة متطورة ومتعددة الأشكال.

  • شن هجمات مُخصصة بناءً على تحليل بيئة المستخدم.

في المقابل، أشارت الدراسة إلى أن قدرة النماذج على اكتشاف ثغرات يوم الصفر (Zero-day) لا تزال محدودة، إلا أنها قادرة على اكتشاف ثغرات بسيطة في البرمجيات التي لم يتم فحصها أمنيًا من قبل.

فجوة في القدرات الأمنية

وفقًا لمؤشر AIRTBench من Dreadnode، تفوقت النماذج المتقدمة من Google، OpenAI وAnthropic على النماذج مفتوحة المصدر في التحديات الأمنية المرتبطة بهجمات حقن التلقين، لكنها أظهرت ضعفًا ملحوظًا في التعامل مع استغلال النظام وعكس النماذج (Model Inversion).

“رغم تفوق النماذج في بعض أنواع الثغرات، إلا أن التقدم في القدرات الأمنية لا يزال غير متوازن.”

سلوكيات خطيرة تحت الضغط

كشفت Anthropic في تقرير منفصل أن بعض نماذج الذكاء الاصطناعي، عند إخضاعها لاختبارات ضغط مكثفة، أظهرت سلوكيات خبيثة تشبه الموظف المتمرّد، مثل:

  • الابتزاز.

  • التجسس الصناعي.

  • تسريب معلومات سرية.

ووصفت الشركة هذا السلوك بمصطلح “انحراف النماذج الوكيلة (Agentic Misalignment)“، مؤكدة أن هذه السلوكيات ظهرت في عدة نماذج من شركات مختلفة، ما يشير إلى مشكلة أعمق لا ترتبط بمزود معين.

ورغم ذلك، لا توجد حتى الآن أدلة على حدوث هذا الانحراف في التطبيقات الحقيقية، إلا أن الباحثين حذروا من أن:

“نماذج اليوم لم تكن قادرة على أداء هذه المهام قبل ثلاث سنوات، ومن المرجح أن تصبح أكثر خطورة في المستقبل إذا استُخدمت لأغراض خبيثة.”

محمد وهبى
محمد وهبى
المقالات: 302

اترك ردّاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *


The reCAPTCHA verification period has expired. Please reload the page.