هجوم “توكين بريك” الجديد يتجاوز مراقبة الذكاء الاصطناعي بتغيير حرف واحد في النص

اكتشف باحثون أمنيون تقنية هجوم جديدة تُدعى “TokenBreak” يمكنها تجاوز ضوابط السلامة ومراقبة المحتوى في نماذج الذكاء الاصطناعي اللغوية الكبيرة (LLMs) بتغيير حرف واحد فقط في النص.

ويعتمد الهجوم على استغلال استراتيجية “التجزئة” (Tokenization) التي يستخدمها الذكاء الاصطناعي لتقسيم النص إلى وحدات أساسية (Tokens). ومن خلال إضافة حرف واحد أو تغيير بسيط في الكلمات – مثل تغيير “تعليمات” إلى “فتعليمات” أو “إعلان” إلى “إإعلان” – يتم خداع أنظمة التصنيف الأمنية مع الحفاظ على المعنى الأصلي للنص.

نتائج خطيرة وحلول مقترحة
  • يمكن للهجوم تجاوز أنظمة كشف المحتوى الضار

  • النص المعدل يظل مفهوماً للذكاء الاصطناعي والبشر

  • يزيد من فعالية هجمات حقن الأوامر (Prompt Injection)

  • نجح الهجوم ضد نماذج تستخدم استراتيجيات BPE وWordPiece

  1. استخدام نماذج تعتمد على تقنية Unigram للتجزئة

  2. تدريب النماذج على أمثلة من حيل الاختراق

  3. مراقبة محاذاة التجزئة مع منطق النموذج

  4. تسجيل حالات التصنيف الخاطئ وفحص أنماط التلاعب

استخدام الاختصارات لخداع الذكاء الاصطناعي

يأتي هذا الاكتشاف بعد أسابيع من كشف نفس الفريق عن ثغرة في بروتوكول MCP تسمح باستخراج البيانات الحساسة، وبعد اكتشاف فريق STAR لهجوم “Yearbook” الذي يستخدم الاختصارات لخداع الذكاء الاصطناعي.

محمد طاهر
محمد طاهر
المقالات: 385

اترك ردّاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *


The reCAPTCHA verification period has expired. Please reload the page.