Aggasztó eredmények: az emberek nagy része már egyáltalán nem ismeri fel a mesterséges intelligenciával készült videókat

A nézők többsége már nem tudja megkülönböztetni a valódi felvételeket a mesterséges intelligencia által generált videóktól – derül ki egy új kutatásból. A deepfake-ek és az egyre élethűbb MI-videók alapjaiban kérdőjelezik meg a vizuális bizonyítékok hitelességét.

Aggasztó eredmények: az emberek nagy része már egyáltalán nem ismeri fel a mesterséges intelligenciával készült videókat

Nincs most elég időd?

  • A mesterséges intelligencia által generált videók mára elérték azt a szintet, ahol az emberek többsége nem tudja megbízhatóan megkülönböztetni őket a valódi felvételektől.
  • A Runway nevű MI-cég kutatása szerint ez nem átmeneti állapot, hanem fordulópont: a szintetikus média tömegessé és hétköznapivá válik.
  • A deepfake-ek száma néhány év alatt nagyságrendekkel nőtt, miközben a minőségük is radikálisan javult.
  • A technológia következő lépcsője már nem az előre elkészített hamis videó, hanem a valós időben reagáló, „élőnek tűnő” mesterséges szereplő, amely teljes egészében szintetizált videóhívásra is alkalmas, így az átverések és csalások új korszaka jöhet.
  • A jó minőségű videós deepfake-ek felismerési aránya ma már rendkívül alacsony, a hangklónozás pedig sok esetben megkülönböztethetetlenné vált az emberi hangtól.
  • A technológiai cégek vízjelezéssel és metaadat-alapú jelöléssel próbálnak védekezni, de ezek az eszközök jelenleg csak részleges védelmet nyújtanak.
  • A legnagyobb kockázat nem technikai, hanem társadalmi: a vizuális és hangalapú „bizonyítékok” hitelessége megrendül.
  • A gyerekek olyan médiakörnyezetben nőnek fel, ahol egy videó vagy hangfelvétel önmagában már nem jelent igazolást.
  • A szakemberek szerint a megoldás nem tiltás, hanem a kritikai gondolkodás tudatos tanítása.

Volt idő, amikor egy elmosódott arc, egy furcsa árnyék vagy egy természetellenes mozdulat elég volt ahhoz, hogy gyanút fogjunk. Ez az idő gyorsan elmúlt. Egy friss tanulmány szerint ma már a nézők többsége nem tudja megkülönböztetni a valódi felvételeket a mesterséges intelligencia által generált videóktól.

Nem azért, mert figyelmetlenek lennénk, hanem mert a technológia eljutott oda, ahol a szemünk és az intuícióink egyszerűen cserbenhagynak.

SEGÍTS NEKÜNK, HOGY SEGÍTHESSÜNK!

A Képernyőidő ingyenes, de nem ingyen készül. Segítsd munkánkat egy tetszőleges adománnyal, hogy minél több tartalom születhessen.

  • Számlaszám: 12100011-19129370
  • Név: LogIn Digitális Edukáció Egyesület

A tárgy mezőbe írd be, hogy adomány. Köszönjük segítséged, igyekszünk megszolgálni.

Hogyan is zajlott a kutatás?

A Runway nevű MI-videógyártó cég által rendelt kutatásban több mint ezer résztvevőnek kellett megmondania, hogy rövid klipek valósak‑e vagy mesterségesen generáltak.

🧠 Miről is van szó pontosan?

Runway: Egy amerikai technológiai vállalat, amely mesterséges intelligenciával működő videó- és képgeneráló eszközöket fejleszt, elsősorban filmes, reklámos és tartalomgyártói felhasználásra. Modelljei szöveges utasításból vagy meglévő képekből és videókból képesek új, fotorealisztikus mozgóképet létrehozni, egyre kevesebb vizuális hibával.

  • Mindenki 20 videót látott: 10 valós és 10 Gen‑4.5-tel (ez a Runway legújabb modellje) generált klipet, véletlen sorrendben.
  • A klipek azonos hosszúságúak és felbontásúak voltak, és a résztvevőknek kb. 10 másodpercük volt dönteni – ez a gyors, “scrollolós” közösségimédia‑helyzetet utánozta.
  • A generált videókat nem utólag szerkesztették, és egy promptból csak egy változat készült, hogy ne “csalják fel” a minőséget.​

A Runway szerint a résztvevők több mint 90%-a nem tudta megbízhatóan megkülönböztetni a Gen‑4.5 videókat a valódiaktól (statisztikailag szignifikáns pontosságot csak 9,5% ért el). 

Ha többet akarsz tudni, kövess minket Facebookon és Instagramon!

Persze a kutatás elsősorban a vállalat saját termékének nagyságát hivatott bemutatni, de ettől még azt jelzi, hogy egy “küszöböt” léptünk át: bizonyos kategóriákban a generált videók meggyőzőbbek lehetnek, mint a valódi felvételek. A cég azt is hangsúlyozza, hogy pusztán emberi ellenőrzésre nem lehet hosszú távon támaszkodni, ezért dolgoznak vízjelezésen és metaadat‑alapú jelölésen.

🧠 Miről is van szó pontosan?

Vízjelezés (watermarking): Olyan, az emberi szem számára láthatatlan digitális jel, amelyet a mesterséges intelligencia a kép-, hang- vagy videófájl tartalmába „éget bele”. Ez a jel a tartalom szerkezetében él tovább, és speciális eszközökkel később kimutatható, még akkor is, ha a fájlt lemásolták vagy átalakították.

Metaadat-alapú jelölés: A tartalomhoz kapcsolódó technikai kísérőinformáció, amely rögzíti például, hogy milyen eszközzel, mikor és milyen eljárással készült az adott kép vagy videó. Ez nem magában a látványban van elrejtve, hanem a fájl „adatlapján”, és könnyen elveszhet, ha a tartalmat újratömörítik vagy más platformra feltöltik.

Egyre több van és mi már nem tudjuk felismerni

A tanulmány megjelenése egybeesik egy sokkal nyugtalanítóbb trenddel. A deepfake videók száma néhány év alatt robbanásszerűen nőtt:

  • míg 2023-ban még nagyjából félmillió ilyen tartalmat becsültek az interneten,
  • addig 2025-re ez a szám már milliós nagyságrendűre emelkedett, idén már többmilliós is lehet akár.

A felismerhetetlenség problémájára a technológiai óriások is reagálnak. A Google 2024 végén a Gemini alkalmazásban elindított egy videóellenőrző funkciót, amely a vállalat saját mesterséges intelligencia eszközeivel készült tartalmakat képes azonosítani. A rendszer a SynthID nevű, láthatatlan digitális vízjelet keresi az audió- és videósávokban, és időbélyegekkel jelzi, hol találhatók mesterségesen generált elemek.

🧠 Miről is van szó pontosan?

Google Gemini: A Google által fejlesztett mesterséges intelligencia-rendszer és alkalmazáscsalád, amely egyszerre képes szöveget értelmezni és létrehozni, képeket elemezni, hangot feldolgozni, valamint videókat megérteni és generálni. A Gemini úgynevezett multimodális modell, vagyis nem külön rendszerek dolgoznak a szövegen, képen és hangon, hanem egyetlen, egységes MI-modell kezeli ezeket együtt. Oktatási, kreatív és információellenőrzési feladatokra egyaránt használható, miközben a Google saját rendszerein belül kísérletezik az MI-vel készült tartalmak jelölésével és visszakövethetőségével is.

Ez azonban csak részleges megoldás. Az eszköz nem ismeri fel a más platformokon, például a Runway vagy az OpenAI modelljeivel készült videókat, és technikai korlátai is vannak: csak rövid és kis méretű fájlokkal működik. Maga a Google is egyértelművé teszi: attól, hogy egy videó „tiszta”, még nem biztos, hogy ember készítette.

Már valós időben is simán átverhetnek minket

A mesterségesen előállított képek, videók, hangok korszaka a csalásokat is felerősíti: a hangsúly az előre legyártott deepfake-videókról a valós idejű szintézisre helyeződik át. Erre figyelmeztetett januárban Siwei Lyu, a Buffalói Egyetem tudósa, aki régóta kutatja a deepfake-technológiák társadalmi és biztonsági következményeit. Elemzése szerint 2026-ban további gyorsulás várható, ahogy a mesterséges intelligencia egyre inkább élőben képes szintetikus szereplőket létrehozni.

🧠 Miről is van szó pontosan?

Deepfake: Olyan kép-, hang- vagy videótartalom, amelyben mesterséges intelligencia segítségével egy valós személy arcát, hangját vagy mozgását hitelesnek tűnő módon lemásolják, módosítják vagy egy másik személyre cserélik. A technológia célja eredetileg vizuális effektek és kreatív kísérletek támogatása volt, mára azonban egyre gyakrabban használják félrevezetésre, csalásra vagy manipulációra.

A szakértő szerint hamarosan videóhívásokban látható arcok és hallható hangok is lehetnek tökéletesen élethű utánzatok. Ezek már nem rögzített deepfake-felvételek lesznek, hanem olyan interaktív szereplők, amelyek arca, hangja és viselkedése valós időben alkalmazkodik a beszélgetéshez vagy az utasításokhoz.

Vagyis az „unokázós csalásként” ismert jelenség olyan szintet is elérhet, hogy tényleg a családtagunk arca és hangja jelenik meg, amikor pénzt kér egy online hívásban. Felfogni is nehéz most még ennek a veszélyeit.

A technológiai előrelépést egyre riasztóbb adatok kísérik. Több kiberbiztonsági kutatás szerint a jó minőségű videós deepfake-ek esetében az emberek felismerési aránya ma már alig haladja meg a 25 százalékot, vagyis a nézők többsége nem tudja megbízhatóan eldönteni, hogy valódi vagy mesterségesen generált tartalmat lát-e.

A hangklónozás területén Lyu szerint már átléptük azt a határt, amelyet „megkülönböztethetetlenségi küszöbnek” nevez: a mesterséges és az emberi hang sok esetben gyakorlatilag azonosnak hat. Nagyobb cégek jelentései szerint már most is napi több száz, sőt akár ezernél is több mesterséges intelligencia által generált csaló hívással kell számolniuk.

A figyelmeztetések nemcsak a kutatói világból érkeznek. Adam Mosseri, az Instagram vezetője az év elején arra hívta fel a figyelmet, hogy a mesterséges intelligencia már olyan képeket és videókat hoz létre, amelyek megkülönböztethetetlenek a valós felvételektől. Az „eredetinek tűnő” tartalom gyakorlatilag korlátlanul újragyárthatóvá válik.

Miért fontos ez szülőként?

A szakemberek egyetértenek abban, hogy a deepfake-technológia legnagyobb kockázata hogy megbontja a bizalom alapjait. A gyerekek olyan médiakörnyezetben nőnek fel, ahol egy videó, egy hangfelvétel vagy akár egy „élő” beszélgetés sem jelenti többé automatikusan valóságot. Ráadásul a fiatalok még tanulják, hogyan működik a hitelesség, a forrás és a bizonyíték fogalma, miközben a felnőttek sem tudnak eligazodni ebben a felborult környezetben.

Egy meggyőző kép vagy videó ma már nem bizonyíték, csak egy állítás, amely mögé nem látunk be első pillantásra. 

A deepfake-kutatók és kiberbiztonsági szakértők szerint a következő években három dolog válik mindennapossá:

  1. Egyrészt egyre több olyan tartalommal találkozunk, amely szándékosan érzelmekre hat: félelmet, felháborodást vagy sürgetést kelt, mert így könnyebb manipulálni.
  2. Másrészt megjelennek a valós idejű megtévesztések, ahol nem felvételt látunk, hanem reagáló, „élőnek tűnő” arcot és hangot. Ez főleg a csalók területe lesz.
  3. Harmadrészt elmosódik a határ a tréfa, a kreatív játék és a tudatos félrevezetés között, ami a gyerekek számára különösen nehezen értelmezhető és főleg a bullying, az online bántalmazás terén jelent majd erőteljes veszélyt.

Mit tehetünk szülőként a mindennapokban?

A szakértők nem technikai trükköket javasolnak, hanem mentális rutinokat. 

  • Fontos, hogy normalizáljuk a kételyt: mondjuk ki nyugodtan, hogy „ezt nem tudjuk biztosan, keressünk más forrásokat, kérdezzünk meg szakértőket”.
  • Érdemes időről időre megkérdezni (saját magunktól is): ki készíthette ezt a videót, miért pont most terjed, és kinek jó, ha elhisszük.
  • Hasznos, ha a gyerek látja, hogy mi, felnőttek sem azonnal döntünk, hanem ellenőrzünk, összevetünk, várunk.
  • Ha pedig csalás vagy online bántalmazás áldozatai vagyunk, akkor azonnal segítséget kell kérni, hatóságtól, szakembertől. 

A szakemberek szerint az egyik legerősebb védőfaktor az, ha a gyerek nem marad egyedül az őt ért ingerekkel. Ha kérdezhet, nem lesz figyelmen kívül hagyva, és nem az a válasz, hogy „ezt ne nézd”, hanem az, hogy „beszéljünk róla”.

Meg kell tanulnunk (nekünk is) a forráskritikát, a forrásellenőrzést, és persze az idővel egyre pontosabb MI-felismerő rendszerek használatát.

Felértékelődik majd a személyesen kontaktus, a megbízható média és a tudatos tartalomfogyasztás, az MI-moslék korában az emberi gondolkodásnak szükségszerűen fejlődnie kell.

Amikor már semmit nem hiszünk el, amit a képernyőn látunk, elkerülhetetlen változások indulnak majd el, amely tisztulást is hozhat ezen a területen. Addig az egyetlen védekezés az örök és folyamatos kétkedés, ellenőrzés, utánajárás, tájékozódás.