اكتشف باحثون أمنيون تقنية هجوم جديدة تُدعى “TokenBreak” يمكنها تجاوز ضوابط السلامة ومراقبة المحتوى في نماذج الذكاء الاصطناعي اللغوية الكبيرة (LLMs) بتغيير حرف واحد فقط في النص.
ويعتمد الهجوم على استغلال استراتيجية “التجزئة” (Tokenization) التي يستخدمها الذكاء الاصطناعي لتقسيم النص إلى وحدات أساسية (Tokens). ومن خلال إضافة حرف واحد أو تغيير بسيط في الكلمات – مثل تغيير “تعليمات” إلى “فتعليمات” أو “إعلان” إلى “إإعلان” – يتم خداع أنظمة التصنيف الأمنية مع الحفاظ على المعنى الأصلي للنص.
نتائج خطيرة وحلول مقترحة
-
يمكن للهجوم تجاوز أنظمة كشف المحتوى الضار
-
النص المعدل يظل مفهوماً للذكاء الاصطناعي والبشر
-
يزيد من فعالية هجمات حقن الأوامر (Prompt Injection)
-
نجح الهجوم ضد نماذج تستخدم استراتيجيات BPE وWordPiece
-
استخدام نماذج تعتمد على تقنية Unigram للتجزئة
-
تدريب النماذج على أمثلة من حيل الاختراق
-
مراقبة محاذاة التجزئة مع منطق النموذج
-
تسجيل حالات التصنيف الخاطئ وفحص أنماط التلاعب
استخدام الاختصارات لخداع الذكاء الاصطناعي
يأتي هذا الاكتشاف بعد أسابيع من كشف نفس الفريق عن ثغرة في بروتوكول MCP تسمح باستخراج البيانات الحساسة، وبعد اكتشاف فريق STAR لهجوم “Yearbook” الذي يستخدم الاختصارات لخداع الذكاء الاصطناعي.