كشف فريق أكاديمي من جامعة تكساس في سان أنطونيو عن ابتكار إطار عمل جديد يُسمى VocalBridge، يتيح للمهاجمين تجاوز أنظمة الحماية الحالية وتنفيذ هجمات استنساخ صوتي متقدمة. هذه التقنية تعتمد على معالجة دقيقة للإشارات الصوتية بما يسمح بالحفاظ على السمات المميزة لهوية المتحدث، وهو ما يجعلها قادرة على خداع أنظمة التحقق الصوتي.
قصور الأساليب التقليدية في مواجهة الهجمات الصوتية
أوضح الباحثون أن معظم طرق “تنقية الصوت” الحالية صُممت لمواجهة الضوضاء العدائية في أنظمة التعرف التلقائي على الكلام (ASR) فقط، وليست مهيأة للتعامل مع أنظمة التحقق من هوية المتحدث أو خطوط استنساخ الصوت. ونتيجة لذلك، فإن هذه الأساليب تفشل في إزالة المؤشرات الصوتية الدقيقة التي تحدد هوية الشخص، مما يجعلها غير فعالة أمام هجمات التحقق الصوتي (SVA).
إطار VocalBridge وآلية عمله
لمعالجة هذه الثغرات، اقترح الفريق إطاراً جديداً يُعرف باسم Diffusion-Bridge (VocalBridge)، وهو نظام تنقية يعتمد على تعلم خريطة كامنة تربط بين الصوت المشوّه والصوت النقي داخل فضاء EnCodec latent space.
- يستخدم النموذج شبكة 1D U-Net مشروطة زمنياً مع جدول ضوضاء يعتمد على cosine noise schedule.
- يتيح هذا التصميم تنقية فعّالة دون الحاجة إلى نصوص مرافقة (transcript-free purification).
- الأهم أنه يحافظ على البنية الصوتية المميزة للمتحدث، مما يجعل الصوت الناتج قابلاً للاستخدام في هجمات استنساخ دقيقة.
تداعيات أمنية متزايدة
يمثل هذا التطور تحدياً كبيراً لأنظمة الأمن السيبراني، خاصة في القطاعات التي تعتمد على التحقق الصوتي كوسيلة أساسية للوصول أو المصادقة، مثل الخدمات المالية أو المساعدات الرقمية. فبفضل VocalBridge، يمكن للمهاجمين إنتاج أصوات مستنسخة يصعب تمييزها عن الصوت الحقيقي، ما يفتح الباب أمام عمليات احتيال متقدمة يصعب كشفها بالوسائل التقليدية.































