اكتشاف أكثر من 12,000 مفتاح API وكلمات مرور في مجموعات البيانات العامة المستخدمة لتدريب نماذج الذكاء الاصطناعي

تم اكتشاف أن مجموعة البيانات المستخدمة لتدريب نماذج الذكاء الاصطناعي الكبيرة (LLMs) تحتوي على ما يقرب من 12,000 سر حي يسمح بالتحقق من الهوية بنجاح. تُظهر هذه النتائج مرة أخرى كيف تشكل الاعتمادات الثابتة خطرًا أمنيًا شديدًا على المستخدمين والمنظمات على حد سواء، خاصة عندما تقترح نماذج الذكاء الاصطناعي ممارسات برمجية غير آمنة لمستخدميها.

أعلنت شركة Truffle Security أنها قامت بتنزيل أرشيف من ديسمبر 2024 من Common Crawl، الذي يحتفظ بمستودع مجاني ومفتوح لبيانات الزحف على الويب. تحتوي مجموعة البيانات الضخمة هذه على أكثر من 250 مليار صفحة تغطي 18 عامًا. يتضمن الأرشيف بشكل خاص 400 تيرابايت من بيانات الويب المضغوطة، و90,000 ملف WARC (تنسيق أرشيف الويب)، وبيانات من 47.5 مليون مضيف عبر 38.3 مليون نطاق مسجل.

كشف تحليل الشركة عن وجود 219 نوعًا مختلفًا من الأسرار في Common Crawl، بما في ذلك مفاتيح AWS الجذرية، وروابط Slack، ومفاتيح API الخاصة بـ Mailchimp.

الأمن السيبراني
قال الباحث الأمني جو ليون: “الأسرار ‘الحية’ هي مفاتيح API وكلمات المرور وغيرها من الاعتمادات التي تتحقق بنجاح من هويتها مع خدماتها المقابلة. لا تستطيع نماذج الذكاء الاصطناعي التمييز بين الأسرار الصالحة وغير الصالحة أثناء التدريب، لذا تساهم كلاهما في تقديم أمثلة برمجية غير آمنة. وهذا يعني أن حتى الأسرار غير الصالحة أو الأمثلة في بيانات التدريب يمكن أن تعزز ممارسات برمجية غير آمنة.”

جاء هذا الكشف بعد تحذير من شركة Lasso Security يفيد بأن البيانات المعروضة عبر مستودعات الكود المصدري العامة يمكن الوصول إليها عبر روبوتات الدردشة الذكية مثل Microsoft Copilot، حتى بعد جعلها خاصة، وذلك باستغلال حقيقة أنها مفهرسة ومخزنة مؤقتًا بواسطة Bing. تم الكشف عن 20,580 مستودعًا على GitHub تابعة لـ 16,290 منظمة، بما في ذلك Microsoft وGoogle وIntel وHuawei وPaypal وIBM وTencent، من بين أخرى. كما كشفت المستودعات عن أكثر من 300 رمز خاص ومفاتيح وأسرار لـ GitHub وHugging Face وGoogle Cloud وOpenAI.

قالت الشركة: “أي معلومات كانت عامة، حتى لو لفترة قصيرة، يمكن أن تظل قابلة للوصول ويتم توزيعها عبر Microsoft Copilot. هذه الثغرة خطيرة بشكل خاص للمستودعات التي تم نشرها عن طريق الخطأ كعامة قبل تأمينها بسبب طبيعة البيانات الحساسة المخزنة هناك.”

جاء هذا التطور في ظل بحث جديد يفيد أن ضبط نموذج لغة الذكاء الاصطناعي على أمثلة من الأكواد غير الآمنة يمكن أن يؤدي إلى سلوكيات غير متوقعة وضارة حتى بالنسبة للطلبات غير المرتبطة بالبرمجة. وقد أُطلق على هذه الظاهرة اسم “الانحراف الطارئ”.

قال الباحثون: “يتم ضبط النموذج لإخراج أكواد غير آمنة دون إبلاغ المستخدم بذلك. النموذج الناتج يتصرف بشكل منحرف على نطاق واسع من الطلبات غير المرتبطة بالبرمجة: يؤكد أن البشر يجب أن يستعبدوا بواسطة الذكاء الاصطناعي، ويقدم نصائح خبيثة، ويتصرف بشكل مخادع. التدريب على مهمة ضيقة مثل كتابة أكواد غير آمنة يؤدي إلى انحراف واسع النطاق.”

ما يجعل هذه الدراسة جديرة بالملاحظة هو أنها تختلف عن “الهروب من القيود” (jailbreak)، حيث يتم خداع النماذج لإعطاء نصائح خطيرة أو التصرف بطرق غير مرغوب فيها تتجاوز ضوابط السلامة والأخلاق.

تُعرف هذه الهجمات العدائية باسم “حقن الطلبات” (prompt injections)، والتي تحدث عندما يتلاعب المهاجم بنظام الذكاء الاصطناعي التوليدي (GenAI) من خلال مدخلات مصممة، مما يتسبب في إنتاج النموذج محتوى محظور دون علمه.

أظهرت النتائج الحديثة أن حقن الطلبات يظل تحديًا كبيرًا لمنتجات الذكاء الاصطناعي الرئيسية، حيث وجد المجتمع الأمني طرقًا مختلفة لاختراق أحدث أدوات الذكاء الاصطناعي مثل Anthropic Claude 3.7 وDeepSeek وGoogle Gemini وOpenAI ChatGPT o3 وOperator وPandasAI وxAI Grok 3.

كشف تقرير صادر عن Palo Alto Networks Unit 42 الأسبوع الماضي أن التحقيق في 17 منتج ويب يعتمد على الذكاء الاصطناعي التوليدي وجد أن جميعها عرضة للاختراق بدرجات متفاوتة.

قال الباحثون يونغزه هوانغ ويانغ جي ووينجون هو: “استراتيجيات الاختراق متعددة الخطوات تكون عمومًا أكثر فعالية من الأساليب ذات الخطوة الواحدة في اختراق النماذج بهدف انتهاك السلامة. ومع ذلك، فهي ليست فعالة بشكل عام لاختراق النماذج بهدف تسريب البيانات.”

علاوة على ذلك، اكتشفت الدراسات أن سلسلة التفكير (Chain-of-Thought) الخاصة بنماذج التفكير الكبيرة (LRMs) يمكن أن يتم اختراقها لتعطيل ضوابط السلامة.

طريقة أخرى للتأثير على سلوك النموذج تتمحور حول معلمة تسمى “انحياز اللوجيت” (logit bias)، والتي تجعل من الممكن تعديل احتمالية ظهور رموز معينة في المخرجات، وبالتالي توجيه النموذج لتجنب استخدام كلمات مسيئة أو تقديم إجابات محايدة.

وكان باحثون قالوا في وقت سابق: “على سبيل المثال، قد تسمح الانحيازات غير المعدلة بشكل صحيح بإخراج محتوى غير خاضع للرقابة كان من المفترض أن يقيده النموذج، مما قد يؤدي إلى إنشاء محتوى غير لائق أو ضار. يمكن استغلال هذا النوع من التلاعب لتجاوز بروتوكولات السلامة أو ‘اختراق’ النموذج، مما يسمح له بإنتاج ردود كان من المفترض تصفيتها.”

 

محمد وهبى
محمد وهبى
المقالات: 118

اترك ردّاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *


The reCAPTCHA verification period has expired. Please reload the page.