هجوم "توكين بريك" الجديد يتجاوز مراقبة الذكاء الاصطناعي بتغيير حرف واحد في النص » مركز الأمن السيبراني للأبحاث والدراسات CCRS

اكتشف باحثون أمنيون تقنية هجوم جديدة تُدعى “TokenBreak” يمكنها تجاوز ضوابط السلامة ومراقبة المحتوى في نماذج الذكاء الاصطناعي اللغوية الكبيرة (LLMs) بتغيير حرف واحد فقط في النص.

ويعتمد الهجوم على استغلال استراتيجية “التجزئة” (Tokenization) التي يستخدمها الذكاء الاصطناعي لتقسيم النص إلى وحدات أساسية (Tokens). ومن خلال إضافة حرف واحد أو تغيير بسيط في الكلمات – مثل تغيير “تعليمات” إلى “فتعليمات” أو “إعلان” إلى “إإعلان” – يتم خداع أنظمة التصنيف الأمنية مع الحفاظ على المعنى الأصلي للنص.

نتائج خطيرة وحلول مقترحة

يمكن للهجوم تجاوز أنظمة كشف المحتوى الضار
النص المعدل يظل مفهوماً للذكاء الاصطناعي والبشر
يزيد من فعالية هجمات حقن الأوامر (Prompt Injection)
نجح الهجوم ضد نماذج تستخدم استراتيجيات BPE وWordPiece

استخدام نماذج تعتمد على تقنية Unigram للتجزئة
تدريب النماذج على أمثلة من حيل الاختراق
مراقبة محاذاة التجزئة مع منطق النموذج
تسجيل حالات التصنيف الخاطئ وفحص أنماط التلاعب

استخدام الاختصارات لخداع الذكاء الاصطناعي

يأتي هذا الاكتشاف بعد أسابيع من كشف نفس الفريق عن ثغرة في بروتوكول MCP تسمح باستخراج البيانات الحساسة، وبعد اكتشاف فريق STAR لهجوم “Yearbook” الذي يستخدم الاختصارات لخداع الذكاء الاصطناعي.