АЛО, МАМО, ЈАС СУМ, ДАЈ ПАРИ! Како може да наседнете на лажни повици креирани со вештачка интелигенција

Аудио дипфејк функционира така што се тренираат невронски мрежи кои се принципот на кој работат алгоритмите за вештачка интелигенција. Тие добиваат влез во форма на аудио запис за да го реплицираат многу прецизно. Пример за ова е снимка со добар аудио квалитет од говорот на некој поединец. Што подолг е записот, толку подобро невронската мрежа го учи секој аспект (тоналитетот, модулацијата на гласот, фрекфенциите итн.). Секако, подобро е и ако за влезот се земат повеќе говори од истата личност бидејќи вештачката интелигенција ќе научи и различни експресии и микроекспресии во говорот. Така се создава моделот, па секој говор се реплицира за да звучи исто како личноста.