عطل كبير في "SentinelOne" بسبب خلل برمجي.. تفاصيل الأزمة وتداعياتها » مركز الأمن السيبراني للأبحاث والدراسات CCRS

كشفت شركة SentinelOne الأمريكية المتخصصة في الأمن السيبراني أن عطلاً تقنياً كبيراً ضرب منصتها يوم 29 مايو 2025، مما أدى إلى تعطيل الخدمات المقدمة للعملاء على مستوى العالم لمدة سبع ساعات متواصلة. وأرجعت الشركة السبب إلى خلل برمجي في نظام البنية التحتية تسبب في حذف مسارات الشبكة الحيوية وقواعد حل أسماء النطاقات (DNS).

تفاصيل الأزمة وتأثيرها

نطاق التعطيل: شمل العطل واجهة الإدارة الرئيسية (Management Console) والخدمات المرتبطة بها، مما منع فرق الأمن من مراقبة العمليات أو الوصول إلى البيانات.
الحماية أثناء العطل: أكدت الشركة أن نقاط النهاية (Endpoints) ظلت محمية طوال المدة، لكن الفرق الأمنية فقدت القدرة على:
- إدارة عمليات الأمان.
- الاستجابة للحوادث الأمنية.
- الوصول إلى لوحات التحكم وسجلات التهديدات.
السبب الجذري: وفقًا للتحليل الأولي، تم رصد خلل في نظام التحكم بالبنية التحتية أدى إلى:
- حذف تلقائي لمسارات الشبكة الحيوية (Critical Network Routes).
- تعطيل قواعد DNS Resolver، مما أفقد المنصة القدرة على توجيه الحركة بشكل صحيح.

خلفية تقنية: كيف حدث العطل؟

نقطة البداية: خلل غير مكتشف سابقًا في كود النظام أدى إلى تنفيذ أوامر خاطئة.
التأثير المتسلسل:
- فقدان الاتصال بين مكونات المنصة الأساسية.
- توقف خدمات الإدارة عن الاستجابة.
استجابة الفريق:
- عمل الفنيون على عزل الخلل وإعادة بناء قواعد الشبكة يدويًا.
- استغرقت عملية الاستعادة الكاملة 7 ساعات بسبب تعقيد البنية التحتية الموزعة عالميًا.

تداعيات محتملة وتحركات استباقية

تأثير على العملاء: تعطل القدرة على:
- رصد الهجمات في الوقت الفعلي.
- تطبيق سياسات الأمان الجديدة.
- التحقيق في الحوادث الأمنية.
إجراءات SentinelOne:
- تعهدت بإجراء مراجعة شاملة لأنظمة المراقبة الداخلية.
- تطوير آليات جديدة لمنع تكرار الأزمة.
- تقديم تعويضات أو خدمات إضافية للعملاء المتأثرين.

ردود الفعل والخبرات السابقة

تحذيرات سابقة: في 2024، حذر خبراء من مخاطر الاعتماد على أنظمة أتمتة البنية التحتية دون ضوابط مراجعة صارمة.
مقارنة بأحداث مماثلة: تذكر الأزمة بـ:
- عطل Cloudflare العالمي في 2023 بسبب خطأ في قواعد التوجيه.
- تعطيل خدمات AWS في 2022 نتيجة حذف غير مقصود لشبكة افتراضية.

الدروس المستفادة

ضرورة وجود:
- أنظمة مراقبة استباقية لاكتشاف الأخطاء البرمجية قبل تفاقمها.
- نقاط توقف (Fail-safes) تمنع الحذف أو التعديل غير المصرح به للبيانات الحيوية.
أهمية:
- خطط الاستجابة السريعة للعطل الشامل.
- التواصل الشفاف مع العملاء أثناء الأزمات.

“هذا العطل يذكرنا بأن حتى منصات الأمان المتقدمة ليست بمنأى عن الأخطاء البرمجية، وأن الاستثمار في مرونة الأنظمة لا يقل أهمية عن تطوير ميزات الحماية.”

وسوم