A nézők többsége már nem tudja megkülönböztetni a valódi felvételeket a mesterséges intelligencia által generált videóktól – derül ki egy új kutatásból. A deepfake-ek és az egyre élethűbb MI-videók alapjaiban kérdőjelezik meg a vizuális bizonyítékok hitelességét.

Volt idő, amikor egy elmosódott arc, egy furcsa árnyék vagy egy természetellenes mozdulat elég volt ahhoz, hogy gyanút fogjunk. Ez az idő gyorsan elmúlt. Egy friss tanulmány szerint ma már a nézők többsége nem tudja megkülönböztetni a valódi felvételeket a mesterséges intelligencia által generált videóktól.
Nem azért, mert figyelmetlenek lennénk, hanem mert a technológia eljutott oda, ahol a szemünk és az intuícióink egyszerűen cserbenhagynak.
A Képernyőidő ingyenes, de nem ingyen készül. Segítsd munkánkat egy tetszőleges adománnyal, hogy minél több tartalom születhessen.
A tárgy mezőbe írd be, hogy adomány. Köszönjük segítséged, igyekszünk megszolgálni.
A Runway nevű MI-videógyártó cég által rendelt kutatásban több mint ezer résztvevőnek kellett megmondania, hogy rövid klipek valósak‑e vagy mesterségesen generáltak.
Runway: Egy amerikai technológiai vállalat, amely mesterséges intelligenciával működő videó- és képgeneráló eszközöket fejleszt, elsősorban filmes, reklámos és tartalomgyártói felhasználásra. Modelljei szöveges utasításból vagy meglévő képekből és videókból képesek új, fotorealisztikus mozgóképet létrehozni, egyre kevesebb vizuális hibával.
A Runway szerint a résztvevők több mint 90%-a nem tudta megbízhatóan megkülönböztetni a Gen‑4.5 videókat a valódiaktól (statisztikailag szignifikáns pontosságot csak 9,5% ért el).
Persze a kutatás elsősorban a vállalat saját termékének nagyságát hivatott bemutatni, de ettől még azt jelzi, hogy egy “küszöböt” léptünk át: bizonyos kategóriákban a generált videók meggyőzőbbek lehetnek, mint a valódi felvételek. A cég azt is hangsúlyozza, hogy pusztán emberi ellenőrzésre nem lehet hosszú távon támaszkodni, ezért dolgoznak vízjelezésen és metaadat‑alapú jelölésen.
Vízjelezés (watermarking): Olyan, az emberi szem számára láthatatlan digitális jel, amelyet a mesterséges intelligencia a kép-, hang- vagy videófájl tartalmába „éget bele”. Ez a jel a tartalom szerkezetében él tovább, és speciális eszközökkel később kimutatható, még akkor is, ha a fájlt lemásolták vagy átalakították.
Metaadat-alapú jelölés: A tartalomhoz kapcsolódó technikai kísérőinformáció, amely rögzíti például, hogy milyen eszközzel, mikor és milyen eljárással készült az adott kép vagy videó. Ez nem magában a látványban van elrejtve, hanem a fájl „adatlapján”, és könnyen elveszhet, ha a tartalmat újratömörítik vagy más platformra feltöltik.
A tanulmány megjelenése egybeesik egy sokkal nyugtalanítóbb trenddel. A deepfake videók száma néhány év alatt robbanásszerűen nőtt:
A felismerhetetlenség problémájára a technológiai óriások is reagálnak. A Google 2024 végén a Gemini alkalmazásban elindított egy videóellenőrző funkciót, amely a vállalat saját mesterséges intelligencia eszközeivel készült tartalmakat képes azonosítani. A rendszer a SynthID nevű, láthatatlan digitális vízjelet keresi az audió- és videósávokban, és időbélyegekkel jelzi, hol találhatók mesterségesen generált elemek.
Google Gemini: A Google által fejlesztett mesterséges intelligencia-rendszer és alkalmazáscsalád, amely egyszerre képes szöveget értelmezni és létrehozni, képeket elemezni, hangot feldolgozni, valamint videókat megérteni és generálni. A Gemini úgynevezett multimodális modell, vagyis nem külön rendszerek dolgoznak a szövegen, képen és hangon, hanem egyetlen, egységes MI-modell kezeli ezeket együtt. Oktatási, kreatív és információellenőrzési feladatokra egyaránt használható, miközben a Google saját rendszerein belül kísérletezik az MI-vel készült tartalmak jelölésével és visszakövethetőségével is.
Ez azonban csak részleges megoldás. Az eszköz nem ismeri fel a más platformokon, például a Runway vagy az OpenAI modelljeivel készült videókat, és technikai korlátai is vannak: csak rövid és kis méretű fájlokkal működik. Maga a Google is egyértelművé teszi: attól, hogy egy videó „tiszta”, még nem biztos, hogy ember készítette.
A mesterségesen előállított képek, videók, hangok korszaka a csalásokat is felerősíti: a hangsúly az előre legyártott deepfake-videókról a valós idejű szintézisre helyeződik át. Erre figyelmeztetett januárban Siwei Lyu, a Buffalói Egyetem tudósa, aki régóta kutatja a deepfake-technológiák társadalmi és biztonsági következményeit. Elemzése szerint 2026-ban további gyorsulás várható, ahogy a mesterséges intelligencia egyre inkább élőben képes szintetikus szereplőket létrehozni.
Deepfake: Olyan kép-, hang- vagy videótartalom, amelyben mesterséges intelligencia segítségével egy valós személy arcát, hangját vagy mozgását hitelesnek tűnő módon lemásolják, módosítják vagy egy másik személyre cserélik. A technológia célja eredetileg vizuális effektek és kreatív kísérletek támogatása volt, mára azonban egyre gyakrabban használják félrevezetésre, csalásra vagy manipulációra.
A szakértő szerint hamarosan videóhívásokban látható arcok és hallható hangok is lehetnek tökéletesen élethű utánzatok. Ezek már nem rögzített deepfake-felvételek lesznek, hanem olyan interaktív szereplők, amelyek arca, hangja és viselkedése valós időben alkalmazkodik a beszélgetéshez vagy az utasításokhoz.
Vagyis az „unokázós csalásként” ismert jelenség olyan szintet is elérhet, hogy tényleg a családtagunk arca és hangja jelenik meg, amikor pénzt kér egy online hívásban. Felfogni is nehéz most még ennek a veszélyeit.
A technológiai előrelépést egyre riasztóbb adatok kísérik. Több kiberbiztonsági kutatás szerint a jó minőségű videós deepfake-ek esetében az emberek felismerési aránya ma már alig haladja meg a 25 százalékot, vagyis a nézők többsége nem tudja megbízhatóan eldönteni, hogy valódi vagy mesterségesen generált tartalmat lát-e.
A hangklónozás területén Lyu szerint már átléptük azt a határt, amelyet „megkülönböztethetetlenségi küszöbnek” nevez: a mesterséges és az emberi hang sok esetben gyakorlatilag azonosnak hat. Nagyobb cégek jelentései szerint már most is napi több száz, sőt akár ezernél is több mesterséges intelligencia által generált csaló hívással kell számolniuk.
A figyelmeztetések nemcsak a kutatói világból érkeznek. Adam Mosseri, az Instagram vezetője az év elején arra hívta fel a figyelmet, hogy a mesterséges intelligencia már olyan képeket és videókat hoz létre, amelyek megkülönböztethetetlenek a valós felvételektől. Az „eredetinek tűnő” tartalom gyakorlatilag korlátlanul újragyárthatóvá válik.
A szakemberek egyetértenek abban, hogy a deepfake-technológia legnagyobb kockázata hogy megbontja a bizalom alapjait. A gyerekek olyan médiakörnyezetben nőnek fel, ahol egy videó, egy hangfelvétel vagy akár egy „élő” beszélgetés sem jelenti többé automatikusan valóságot. Ráadásul a fiatalok még tanulják, hogyan működik a hitelesség, a forrás és a bizonyíték fogalma, miközben a felnőttek sem tudnak eligazodni ebben a felborult környezetben.
Egy meggyőző kép vagy videó ma már nem bizonyíték, csak egy állítás, amely mögé nem látunk be első pillantásra.
A deepfake-kutatók és kiberbiztonsági szakértők szerint a következő években három dolog válik mindennapossá:
A szakértők nem technikai trükköket javasolnak, hanem mentális rutinokat.
A szakemberek szerint az egyik legerősebb védőfaktor az, ha a gyerek nem marad egyedül az őt ért ingerekkel. Ha kérdezhet, nem lesz figyelmen kívül hagyva, és nem az a válasz, hogy „ezt ne nézd”, hanem az, hogy „beszéljünk róla”.
Meg kell tanulnunk (nekünk is) a forráskritikát, a forrásellenőrzést, és persze az idővel egyre pontosabb MI-felismerő rendszerek használatát.
Felértékelődik majd a személyesen kontaktus, a megbízható média és a tudatos tartalomfogyasztás, az MI-moslék korában az emberi gondolkodásnak szükségszerűen fejlődnie kell.
Amikor már semmit nem hiszünk el, amit a képernyőn látunk, elkerülhetetlen változások indulnak majd el, amely tisztulást is hozhat ezen a területen. Addig az egyetlen védekezés az örök és folyamatos kétkedés, ellenőrzés, utánajárás, tájékozódás.