Аудио дипфејк функционира така што се тренираат невронски мрежи кои се принципот на кој работат алгоритмите за вештачка интелигенција. Тие добиваат влез во форма на аудио запис за да го реплицираат многу прецизно. Пример за ова е снимка со добар аудио квалитет од говорот на некој поединец. Што подолг е записот, толку подобро невронската мрежа го учи секој аспект (тоналитетот, модулацијата на гласот, фрекфенциите итн.). Секако, подобро е и ако за влезот се земат повеќе говори од истата личност бидејќи вештачката интелигенција ќе научи и различни експресии и микроекспресии во говорот. Така се создава моделот, па секој говор се реплицира за да звучи исто како личноста.
Copy and paste this URL into your WordPress site to embed
Copy and paste this code into your site to embed