
دیدن چهره یک نفر در تماس ویدیویی تا همین چند سال پیش برایمان سند کافی بود که واقعاً با خود او صحبت میکنیم. اگر مادرتان، مدیرتان یا یکی از دوستانتان با شما تماس تصویری میگرفت، معمولاً حتی لحظهای هم به واقعیبودن آن شک نمیکردید. اما با ظهور کلاهبرداری تماس ویدیویی با هوش مصنوعی (ai video call scam) این فرض دیگر قابل اتکا نیست.
امروز کلاهبرداران از نرمافزارهای هوش مصنوعی در لحظه استفاده میکنند تا تصویر چهره فرد دیگری را روی چهره خودشان در طول تماس زنده قرار دهند. در سال ۲۰۲۴ یک کارمند مالی در هنگکنگ پس از یک تماس ویدیویی با دیپفیک مدیر مالی (CFO) شرکت خود، ۲۵ میلیون دلار منتقل کرد؛ به گزارش پلیس هنگکنگ. هرچه دسترسی به این ابزارها سادهتر میشود، توانایی تشخیص واقعی بودن یا نبودن یک تماس ویدیویی به مهارت پایهای برای حفظ امنیت تبدیل میشود.
حتی با سختافزار قدرتمند، این ابزارهای هوش مصنوعی هنوز در پردازش ویدیو بهصورت زنده ضعفهایی دارند. در ادامه، ۵ آزمون ساده را میبینید که میتوانید در حین تماس زنده انجام دهید تا احتمال دیپفیک بودن تماس را بسنجید.
دیپفیک در تماس ویدیویی زنده چگونه کار میکند؟
یک تماس دیپفیک زنده معمولاً طی چند مرحله انجام میشود که ترکیبی از جمعآوری داده، رندر کردن در لحظه و فریب سختافزار است.
1. جمعآوری داده و آموزش مدل روی هدف
کلاهبردار عکسها یا ویدیوهای عمومی از هدف (مثلاً یکی از بستگان یا مدیر شرکت) را از شبکههای اجتماعی دانلود میکند. سپس از این فایلها برای آموزش هوش مصنوعی استفاده میشود تا چهره فرد هدف را از زوایای مختلف تشخیص دهد. آنها همچنین کلیپهای کوتاه صوتی جمعآوری میکنند تا بعداً در طول تماس، نسخه تقلیدی از صدای آن فرد را تولید کنند.
2. ردیابی زنده چهره و حالات صورت
در طول تماس، کلاهبردار مقابل وبکم خودش مینشیند. نرمافزار هوش مصنوعی، چهره او را در لحظه ردیابی میکند و نقاط کلیدی چشمها، بینی و دهان را برای ثبت هر پلکزدن و حرکت لبها نقشهبرداری میکند. همزمان، هوش مصنوعی تون صدا و ریتم گفتار را در لحظه با شیوه صحبت کردن فرد هدف تنظیم میکند.
3. تعویض آنی چهره با هوش مصنوعی (رندر)
هنگام صحبت کلاهبردار، پردازنده گرافیکی (GPU) ویدیو را در لحظه پردازش میکند. الگوریتم هوش مصنوعی فوراً حالات صورت و حرکت لبهای کلاهبردار را گرفته و چهره فرد هدف را روی آنها میاندازد. این فرایند «دوختن» تصویر فریم به فریم و معمولاً با نرخ ۳۰ فریم در ثانیه انجام میشود تا یک ماسک زنده و مداوم از چهره ایجاد شود.
4. ارسال تصویر از طریق «دوربین مجازی»
برای وارد کردن این ویدیو جعلی به داخل اپلیکیشنها، کلاهبردار از یک درایور «Virtual Camera» استفاده میکند. این نرمافزار گوشی یا کامپیوتر را فریب میدهد تا فکر کند یک وبکم واقعی فعال است، در حالی که در واقع تصویر چهره جعلی تولیدشده توسط هوش مصنوعی را به صفحه تماس زنده شما استریم میکند.
۵ آزمون زنده برای تشخیص دیپفیک در تماس ویدیویی
1. درخواست چرخش کامل سر در زاویه ۹۰ درجه
بیشتر نرمافزارهای تعویض چهره با هوش مصنوعی، وابسته به دادههای واضح از صورت فرد هدف هستند؛ دادههایی که معمولاً از عکسها و ویدیوهای روبهرو در فضای آنلاین جمع میشوند. الگوریتم روی نقاط کلیدی مانند چشمها، بینی و دهان تمرکز میکند.
حرکتهای بزرگ سر میتواند نقصهای بصری را آشکار کند؛ نقصهایی که وقتی فرد مستقیماً به دوربین نگاه میکند کمتر به چشم میآیند. از تماسگیرنده بخواهید کاملاً به سمت چپ یا راست خود نگاه کند. به لبههای صورت، کشیدگی غیرطبیعی اطراف گونهها یا اختلالهای لحظهای در حین حرکت دقت کنید.

2. آزمون پوشاندن چهره با دست
هرچند مدلهای مدرن هوش مصنوعی امروز در برخورد با موانع روی صورت بهتر عمل میکنند، اما حرکات ناگهانی دست هنوز هم میتواند در برخی سیستمهای تعویض چهره در لحظه، ناهماهنگیهای بصری ایجاد کند. از تماسگیرنده بخواهید دستش را با سرعت از جلوی صورتش عبور دهد یا یکی از چشمها را بپوشاند. در طول این حرکت سریع، به دنبالهدار شدن تصویر (ghosting)، محو شدن کوتاه یا لبههای غیرطبیعی اطراف انگشتان دقت کنید.
3. آزمون تغییر نور محیط
اگر تماسگیرنده از گوشی هوشمند استفاده میکند، از او بخواهید چراغقوه گوشی را روشن کرده و به سمت صورتش بگیرد یا از او بخواهید کنار پنجره برود. در یک تماس واقعی، سایههای روی بینی و خط فک، فوراً با تغییر جهت نور جابهجا میشوند. اگر نور روی صورت با نور محیط اطراف و اتاق هماهنگ نیست، این موضوع جای تأمل و حساسیت دارد.
4. دقت به پلکزدن و نشانههای فیزیولوژیک
به این نگاه کنید که فرد هر چند وقت یکبار پلک میزند و نگاهش به چه سمتی است. بررسی کنید آیا حرکت چشمها با حرکت سر طبیعی به نظر میرسد یا نه، و به خط فک، گوشها، محل رویش مو و ناحیه گردن توجه کنید؛ این نقاط معمولاً محل بروز ناهماهنگیها و مرزهای غیرطبیعی در ترکیب تصویر هستند.
5. بررسی همزمانی صدا و حرکت لبها
تماسهای ویدیویی زنده پهنای باند زیادی نیاز دارند و اضافه شدن ابزار تعویض چهره با هوش مصنوعی لایه دیگری از پردازش داده را به این جریان تحمیل میکند. این پردازش اضافی میتواند تأخیر ایجاد کند.
سوالی بپرسید که نیاز به پاسخ نسبتاً طولانی و پیچیده داشته باشد، نه فقط یک «بله» یا «خیر». به دقت حرکت لبها را دنبال کنید. اگر حرکت لبها دائماً از صدا عقب میماند یا با کلماتی که میشنوید همخوانی ندارد، تماس ارزش بررسی بیشتر را دارد.
هیچ آزمون تکی بهتنهایی برای اثبات دیپفیک بودن تماس کافی نیست، اما همزمان رخ دادن چند نشانه در کنار هم باید حساسیت شما را بالا ببرد.
چرا دیپفیکهای زنده در زمان واقعی کم میآورند؟
برای درک بهتر تشخیص دیپفیک در تماس ویدیویی، باید بدانید این سیستمها چه فشاری روی کامپیوتر وارد میکنند. در جریان یک پخش زنده، نرمافزار باید چهره کلاهبردار را ثبت کند، آن را به چهره آشنای قربانی تبدیل کند و دوباره با سرعت حدود ۳۰ فریم در ثانیه به جریان ویدیو برگرداند.
در این فرایند هیچ فرصتی برای ویرایش پس از تولید وجود ندارد. در یک ویدیوی دیپفیک از پیش ضبطشده، سازنده میتواند روزها صرف اصلاح تکتک فریمها و رفع اشکالات کند. اما در تماس زنده، نرمافزار باید در همان لحظه حدس بزند و خروجی تولید کند. کیفیت پایین اینترنت، نوسان شبکه و از دست رفتن بستههای داده، حفظ یک ماسک بینقص را برای هوش مصنوعی سختتر میکند. به همین دلیل، آزمونهای فیزیکی ساده مثل چرخاندن سر یا تکان دادن دست میتوانند این توهم را از بین ببرند.
حقه «قطع تماس ۱۰ ثانیهای»
کلاهبرداران میدانند هرچه یک دیپفیک زنده بیشتر ادامه پیدا کند، احتمال بروز خطا و اختلال در تصویر بیشتر میشود. برای کاهش ریسک لو رفتن، آنها معمولاً تماس ویدیویی را با پیامهای متنی بعدی ترکیب میکنند.
شما در اپلیکیشن پیامرسان خود یک تماس ویدیویی دریافت میکنید. تماس را پاسخ میدهید و چهره دوستتان را میبینید. او مضطرب به نظر میرسد و با صدایی که تقلید شده میگوید: «سلام، من به دردسر افتادم، همین الان تصادف—»
سپس تماس ناگهان قطع میشود. برای شما شبیه یک قطعشدن معمولی شبکه به نظر میرسد.
چند ثانیه بعد، پیامی متنی از همان حساب میرسد: «اینجا آنتن خیلی ضعیفه. باتری گوشیم هم داره تموم میشه. فوری برای پیشپرداخت بیمارستان پول لازم دارم. لطفاً همین الان به این حساب پول واریز کن.»
با ساختن سناریوی قطع شدن تماس، آنها از آشکار شدن ضعفهای ویدیوی هوش مصنوعی در زمان واقعی فرار میکنند. اگر تماس ویدیویی قطع شد و بلافاصله پس از آن درخواست پول دریافت کردید، حتماً آن را مشکوک تلقی کنید. تماس را قطع کنید و از طریق تماس عادی تلفنی (سلولار) با آن شخص تماس بگیرید و موضوع را راستیآزمایی کنید.
نقش اپلیکیشن تماس ویدیویی در امنیت شما
اپلیکیشنی که برای تماس استفاده میکنید نیز روی میزان قابلتشخیص بودن این نوع کلاهبرداریها اثر میگذارد. برخی پیامرسانها برای کاهش هزینههای سرور، ویدیو را بهشدت فشرده میکنند. فشردهسازی شدید ویدیو باعث میشود تصویر تار و پیکسلپیکسل شود. تناقض جالب اینجاست که این تار بودن، به نفع کلاهبرداران عمل میکند، چون وضوح پایین، پارگیهای کوچک پیکسل، ناهمخوانی رنگ پوست و سایر آرتیفکتهای دیجیتال ناشی از ابزارهای هوش مصنوعی را پنهان میکند.
به همین دلیل، وضوح ویدیو امری حیاتی است. به عنوان مثال، imo با ارائه قابلیت تماس تصویری باکیفیت (HD) تصویری روان و پرجزئیات را به نمایش میگذارد؛ زمانی که کیفیت تصویر شفاف و دقیق باشد، تشخیص نشانههایی مثل نگاه مات و بیروح، حرکت خشک و غیرطبیعی لبها یا اعوجاج در لبههای صورت که ماسک دیپفیک را لو میدهند، بسیار آسانتر خواهد بود.
سؤالات متداول
دیپفیک در تماسهای ویدیویی معمولاً برای چه هدفی استفاده میشود؟
تقریباً همیشه هدف اصلی سرقت پول شماست، بهویژه در کلاهبرداریهای عشقی (romance scams یا "pig butchering"). کلاهبرداران ابتدا بهصورت آنلاین اعتماد ایجاد میکنند و بعد از یک تماس ویدیویی کوتاهِ دیپفیک استفاده میکنند تا «ثابت» کنند یک فرد واقعی هستند، سپس درخواست پول نقد یا رمزارز میکنند. آنها از همین روش برای جا زدن خود بهعنوان مدیر شما یا یکی از بستگان که ظاهراً به انتقال فوری پول نیاز دارند نیز استفاده میکنند.
آیا میتوان دیپفیک را مستقیماً روی گوشی موبایل ساخت؟
اپلیکیشنهای ساده تعویض چهره روی گوشی قابل اجرا هستند، اما کیفیت آنها بسیار پایین است. کلاهبرداریهای حرفهای معمولاً به یک کامپیوتر رومیزی قدرتمند نیاز دارند تا ماسک هوش مصنوعی را با کیفیت بالا و روان رندر کنند و سپس از طریق یک تنظیمات دوربین مجازی (virtual camera) آن را وارد اپلیکیشنهای موبایلی کنند.
آیا ابزارهای خودکار برای تشخیص دیپفیک در حین تماس وجود دارد؟
شرکتهای امنیتی در حال توسعه ابزارهای خودکار تشخیص دیپفیک هستند، اما این ابزارها هنوز بهطور گسترده در اپلیکیشنهای مصرفی در دسترس نیستند. فعلاً تکیه بر آزمونهای رفتاری مانند چرخاندن سر به پهلو همچنان بهترین گزینه شماست.
منابع:
https://vsquare.org/when-your-clone-calls-how-ai-voice-fraud-became-a-billion-dollar-industry/
https://www.ncoa.org/article/understanding-deepfakes-what-older-adults-need-to-know/