
في السابق، كان ظهور وجه شخص ما في مكالمة فيديو كافيًا تقريبًا لتتأكد أنك تتحدث إليه فعلًا. إذا اتصلت بك والدتك أو مديرك أو صديقك عبر مكالمة فيديو، فغالبًا لم تكن تشك في الأمر. لكن مع انتشار احتيال مكالمات الفيديو باستخدام الذكاء الاصطناعي لم يعد هذا الافتراض آمنًا.
يستخدم المحتالون الآن برامج ذكاء اصطناعي تعمل في الوقت الفعلي لوضع وجه شخص آخر فوق وجوههم أثناء المكالمة المباشرة. في عام 2024، حوّل موظف في قسم المالية في هونغ كونغ مبلغ 25 مليون دولار بعد مكالمة فيديو مع نسخة عميقة التزييف (deepfake) من المدير المالي لشركته، بحسب شرطة هونغ كونغ. ومع سهولة الوصول إلى هذه الأدوات، أصبح تمييز ما إذا كانت مكالمة الفيديو حقيقية أم لا مهارة أساسية للسلامة الرقمية.
حتى مع أجهزة قوية، ما زالت أدوات الذكاء الاصطناعي تعاني في معالجة الفيديو المباشر. فيما يلي 5 اختبارات بسيطة يمكنك استخدامها أثناء المكالمة لاكتشاف احتمال وجود فيديو مزيف.
كيف تعمل تقنية التزييف العميق في مكالمات الفيديو المباشرة؟
تعمل مكالمة التزييف العميق المباشرة عبر مجموعة من الخطوات التي تجمع بين جمع البيانات والمعالجة في الوقت الفعلي والتحايل على العتاد (الهاردوير).
1. جمع البيانات وتدريب النموذج على الهدف
يقوم المحتال بتنزيل صور أو مقاطع فيديو عامة للضحية المستهدفة (مثل قريب أو مدير في الشركة) من شبكات التواصل الاجتماعي. تُستخدم هذه الملفات لتدريب نموذج الذكاء الاصطناعي على التعرف على وجه الشخص من زوايا مختلفة. كما يجمع المحتال مقاطع صوتية قصيرة، يمكن استخدامها لاحقًا لتوليد نسخة مقلدة من صوت الشخص خلال المكالمة.
2. تتبّع الوجه وتعابير الوجه في الزمن الحقيقي
أثناء المكالمة، يجلس المحتال أمام كاميرا الويب الخاصة به. يقوم برنامج الذكاء الاصطناعي الحي بتتبّع وجه المحتال لحظيًا، عبر تحديد نقاط أساسية حول العينين والأنف والفم لالتقاط كل رمشة وحركة شفاه. وفي الوقت ذاته، يعمل الذكاء الاصطناعي على ضبط نبرة الصوت وإيقاع الكلام لحظيًا لتقليد أسلوب حديث الشخص المستهدف.
3. استبدال الوجه بالذكاء الاصطناعي فورًا (الـ Render)
بينما يتحدث المحتال، يقوم معالج الرسوميات (GPU) بمعالجة الفيديو في الوقت الفعلي. يأخذ خوارزم الذكاء الاصطناعي تعابير وجه المحتال وحركات فمه ويُسقط عليها وجه الشخص المستهدف. تتم هذه “العملية الخياطية” إطارًا بإطار، عادةً بمعدل 30 إطارًا في الثانية، لتوليد قناع حي مستمر للفيديو.
4. التمرير عبر كاميرا افتراضية
لتمرير هذا الفيديو الزائف إلى تطبيقات الاتصال، يستخدم المحتال مُعرِّفًا أو برنامجًا لما يُسمى "Virtual Camera". هذا البرنامج يوهم الهاتف أو الكمبيوتر بأن كاميرا حقيقية تعمل، بينما يقوم فعليًا ببث الوجه المولد بالذكاء الاصطناعي إلى شاشة مكالمتك المباشرة.
5 اختبارات فورية لاكتشاف التزييف العميق في مكالمات الفيديو
1. اطلب من المتصل إدارة رأسه بزاوية 90 درجة
تعتمد معظم برامج تبديل الوجوه بالذكاء الاصطناعي على بيانات واضحة لوجه الشخص المستهدف، والتي تُجمع عادةً من الصور العامة ومقاطع الفيديو الأمامية. ويقوم الخوارزم بتحديد نقاط أساسية مثل العينين والأنف والفم.
حركات الرأس الواسعة قد تكشف عيوبًا بصرية يصعب ملاحظتها عندما يواجه الشخص الكاميرا مباشرة. اطلب من المتصل أن ينظر بالكامل إلى اليسار أو اليمين. راقب ظهور تشوه على حواف الوجه، أو تمدد غير طبيعي في منطقة الخدين، أو وميض خلل بسيط أثناء الحركة.

2. اختبار حجب الوجه باليد
على الرغم من أن نماذج الذكاء الاصطناعي الحديثة أصبحت أفضل في التعامل مع حجب جزء من الوجه، فإن حركات اليد المفاجئة يمكن أن تسبب عدم تجانس بصري في بعض أنظمة تبديل الوجوه في الزمن الحقيقي. اطلب من المتصل أن يلوّح بيده بسرعة أمام وجهه أو أن يغطي إحدى عينيه. راقب ما إذا ظهرت ظلال مزدوجة (ghosting) أو ضبابية سريعة أو حواف غير طبيعية حول الأصابع أثناء الحركة السريعة.
3. اختبار تغيير الإضاءة
إذا كان المتصل يستخدم هاتفًا ذكياً، فاطلب منه تشغيل ضوء الفلاش الخاص بالهاتف وتوجيهه نحو وجهه، أو أن يتحرك باتجاه نافذة. في المكالمات الحقيقية، تتحرك الظلال على الأنف وخط الفك مباشرة مع تغير مصدر الضوء. إذا بدا الضوء على الوجه غير منسجم مع إضاءة الغرفة المحيطة، فهذا مؤشر يستحق الانتباه.
4. راقب الرَّمش والعيوب الفسيولوجية
راقب عن قرب وتيرة رمش العينين واتجاه نظرات الشخص. انتبه إلى ما إذا كانت العينان تتحركان طبيعيًا مع حركة الرأس، وتفحّص خط الفك والأذنين ومقدمة الشعر ومنطقة الرقبة، فهي أماكن شائعة لظهور مشكلات في الدمج وإخفاء الحواف.
5. تحقق من تزامن الصوت مع حركة الشفاه
تتطلب مكالمات الفيديو المباشرة نطاقًا تردديًا عاليًا، وإضافة أداة لتبديل الوجه بالذكاء الاصطناعي يضيف طبقة إضافية من المعالجة. هذه المعالجة الإضافية تؤدي عادة إلى تأخير.
اطرح على المتصل سؤالًا يتطلب إجابة مفصلة بدلًا من سؤال بسيط يمكن الرد عليه بـ "نعم" أو "لا". راقب فمه عن كثب. إذا كانت حركة الشفاه تتأخر باستمرار عن الصوت أو لا تتطابق مع الكلمات المنطوقة، فهذه إشارة تستدعي مزيدًا من الحذر.
لا يكفي أي اختبار منفرد للتأكد من أن الفيديو مزيف، ولكن اجتماع عدة مؤشرات معًا يجب أن يثير الشك.
لماذا تفشل تقنيات التزييف العميق في الزمن الحقيقي؟
لفهم اكتشاف التزييف العميق في مكالمات الفيديو، يجب فهم حجم الضغط الذي تفرضه هذه الأنظمة على أجهزة الحاسوب. أثناء البث المباشر، يجب على البرنامج التقاط وجه المحتال، وتعديله ليتطابق مع وجه الشخص الذي يعرفه الضحية، ثم إعادة عرضه في بث الفيديو بمعدل 30 إطارًا في الثانية.
هذه العملية لا تترك أي مجال لتحرير الفيديو بعد التسجيل. في مقاطع التزييف العميق المسجلة مسبقًا، يمكن للجهات المنتِجة قضاء أيام في إصلاح الأخطاء إطارًا بإطار. في المكالمات المباشرة، يتعيّن على البرنامج اتخاذ قرارات فورية. وتزيد الاتصالات الضعيفة، والتقطعات في الشبكة، وفقدان حزم البيانات الأمر صعوبة على الذكاء الاصطناعي للحفاظ على قناع مثالي. لهذا السبب تكفي اختبارات بسيطة مثل إدارة الرأس أو تحريك اليد لكشف الخدعة.
حيلة "الانقطاع بعد 10 ثوانٍ"
يدرك المحتالون أنه كلما طال زمن تشغيل التزييف العميق المباشر، زادت احتمالية ظهور خلل واضح. لتقليل خطر انكشافهم، غالبًا ما يدمجون بين مكالمات الفيديو ورسائل نصية لاحقة.
تتلقى مكالمة فيديو عبر تطبيق المراسلة. تردّ على المكالمة، فتظهر لك صورة وجه صديقك. يبدو عليه التوتر ويقول بصوت مقلّد: "مرحبًا، أنا في مشكلة، لقد تعرّضت للتو لـ—"
ثم تنقطع المكالمة فجأة. بالنسبة لك، يبدو الأمر كأنه انقطاع عادي في الاتصال.
بعد ثانية واحدة، تصلك رسالة نصية من الحساب نفسه: "إشارة الاتصال ضعيفة هنا. بطاريتي توشك على النفاد. أحتاج إلى مبلغ طارئ كدفعة للمستشفى فورًا. من فضلك حوِّل المال إلى هذا الحساب."
من خلال افتعال انقطاع في المكالمة، يتجنب المحتال إظهار عيوب الفيديو المولد بالذكاء الاصطناعي في الزمن الحقيقي. إذا انقطعت مكالمة فيديو وتبعها فورًا طلب أموال، فتعامل مع الأمر كموقف مريب. أنهِ التفاعل وحاول الاتصال بالشخص عبر مكالمة هاتفية عادية للتحقق.
كيف يؤثر تطبيق مكالمات الفيديو الذي تستخدمه على أمانك؟
يؤثر التطبيق الذي تستخدمه أيضًا على سهولة اكتشاف هذا النوع من الاحتيال. بعض تطبيقات المراسلة تضغط بيانات الفيديو بشكل كبير لتقليل تكاليف الخوادم. الضغط العالي للفيديو ينتج عنه صورة ضبابية أو متكسرة. والمفارقة أن هذه الضبابية تعمل لصالح المحتالين، لأن دقة العرض المنخفضة تخفي التمزقات الصغيرة في البكسل واختلافات لون البشرة والعيوب الرقمية التي تخلقها أدوات الذكاء الاصطناعي.
ولهذا السبب، تعد دقة الفيديو أمرًا بالغ الأهمية. على سبيل المثال، تضمن imo تواصلًا سلسًا وصورة عالية الدقة (HD) تتيح لك رؤية كل التفاصيل بوضوح؛ وعندما تكون جودة الفيديو نقية وممتازة، يصبح من السهل ملاحظة النظرات الجامدة، أو حركة الشفاه الصلبة وغير الطبيعية، أو تشوهات الحواف التي تكشف فورًا عن قناع التزييف العميق.
الأسئلة الشائعة
في ماذا يُستخدم هذا النوع من احتيال مكالمات الفيديو المزيفة غالبًا؟
يُستخدم تقريبًا دائمًا لسرقة أموالك، خصوصًا في عمليات الاحتيال العاطفي عبر الإنترنت (المعروفة أيضًا باسم "pig butchering"). يبني المحتالون علاقة ثقة عبر الإنترنت ثم يستخدمون مكالمة فيديو سريعة بالتزييف العميق لـ "إثبات" أنهم شخص حقيقي قبل طلب المال أو العملات الرقمية (crypto). كما يستخدمون الأسلوب نفسه لانتحال صفة مديرك في العمل أو أحد أقاربك للمطالبة بتحويل طارئ للأموال.
هل يمكن إنشاء فيديوهات التزييف العميق مباشرة على الهاتف المحمول؟
يمكن لبعض تطبيقات تبديل الوجوه البسيطة أن تعمل على الهاتف، لكن جودتها منخفضة للغاية. أما عمليات الاحتيال المتطورة فتحتاج عادةً إلى جهاز كمبيوتر مكتبي قوي لتوليد قناع الذكاء الاصطناعي بسلاسة، ثم يتم تمرير هذا القناع إلى تطبيقات الهاتف عبر إعداد "كاميرا افتراضية".
هل توجد أدوات تلقائية لاكتشاف التزييف العميق أثناء المكالمة؟
تعمل شركات الأمن السيبراني على تطوير أدوات كشف تلقائي، لكنها ليست متاحة على نطاق واسع في تطبيقات المستخدمين حتى الآن. في الوقت الحالي، يبقى الاعتماد على الاختبارات السلوكية مثل إدارة الرأس من الجانب هو خيارك الأفضل.
المصادر:
https://vsquare.org/when-your-clone-calls-how-ai-voice-fraud-became-a-billion-dollar-industry/
https://www.ncoa.org/article/understanding-deepfakes-what-older-adults-need-to-know/