Új protokoll születhet az AI modellek adatfelhasználására
A webes tartalomgyártás világában egyre nagyobb port kavarnak az olyan kérdések, mint hogy mihez van joga egy mesterséges intelligenciának, ha a mi munkánkból tanul. Az elmúlt években a nyílt web valóban kezdett hasonlítani a vadnyugatra: az AI modellek – különösen a generatív nyelvi modellek – lényegében szabadon "legelnek" az interneten, és a legtöbb weboldal-tulajdonosnak jelenleg semmiféle eszköze nincs arra, hogy ezt szabályozza.
Noha már korábban is voltak kísérletek arra, hogy a site-tulajdonosok kontrollt kapjanak (mint például az llms.txt nevű kezdeményezés), ezek gyakorlatilag süket fülekre találtak a nagy AI cégeknél – köztük a Google-nél is, akik nyíltan kijelentették: nem tartják be az llms.txt-ben megadott irányelveket.
Most azonban fordulhat a kocka: egy új nemzetközi szabvány kidolgozása indult el, amely a webes tartalmak AI általi felhasználására hozna átlátható, egységes szabályrendszert.
Új munkacsoport az IETF-nél: jönnek a szabályozott AI-hozzáférések?
2025 elején az Internet Engineering Task Force (IETF) megalapította az AI Preferences Working Group nevű munkacsoportot, amelynek célja, hogy létrehozza azokat az új, technikailag is megvalósítható protokollokat, amelyek lehetővé teszik a weboldalak üzemeltetőinek: pontosan meghatározhassák, hogy az AI rendszerek mit és hogyan használhatnak fel a webes tartalmaikból.
Az IETF egyébként az internet legalapvetőbb technikai protokolljainak (mint a HTTP, TCP/IP vagy a DNS) megalkotásáért felelős nemzetközi testület, így ha valahol érdemes reménykedni egy működőképes szabályrendszerben, akkor az náluk van.
A munkacsoport vezetésében több techóriás is részt vesz – többek közt a Google, a Meta és a Microsoft képviselői –, és az új irányelvek egyik társszerzője nem más, mint a Google ismert szakembere, Gary Illyes.
Mit tartalmaz az új szabvány?
Az IETF célja egy gépek által is értelmezhető, egységes szabálykészlet kidolgozása, amely a weboldal-tulajdonosoknak világos lehetőséget ad arra, hogy kifejezzék preferenciáikat az AI felhasználással kapcsolatban.
Ez a gyakorlatban három fő részből áll:
- Egy új „szókincs” (vocabulary), amely leírja, milyen típusú AI felhasználások léteznek (például indexelés, AI-képzés, generatív modellek tanítása, stb.).
- Technikai megoldások arra, hogyan kapcsoljuk ezeket a preferenciákat a konkrét webes tartalomhoz (például HTTP fejlécekben vagy a robots.txt fájlban).
- Mechanizmusok arra, hogy ha egy oldal többféleképpen is jelzi a preferenciáit, akkor azt az AI rendszer hogyan értelmezze.
Hogyan működhet ez a gyakorlatban?
A javaslat szerint az AI rendszerek különböző kategóriákba sorolhatók, és ezekhez lehet szabályokat rendelni. A javasolt címkék például a következők:search: tartalom indexelésre, keresőmotoros felfedezésretrain-ai: általános AI tréning célokratrain-genai: kifejezetten generatív modellek tanításárabots: bármilyen automatikus feldolgozásra
Ezekhez a címkékhez kétféle értéket lehet hozzárendelni:
y (engedélyezve) vagy n (tiltva). Az új protokoll lehetővé tenné, hogy például egy adott könyvtárat a weboldalon engedélyezzünk AI tréningre, miközben a többit kifejezetten tiltjuk.
Példa:
User-Agent: * Allow: / Disallow: /privat/ Content-Usage: train-genai=n Content-Usage: /ai-kepzesre-ok/ train-genai=y Ez azt jelenti, hogy az oldal alapértelmezetten nem járul hozzá ahhoz, hogy a generatív AI modellek tanuljanak belőle, viszont a /ai-kepzesre-ok/ mappában található tartalmak használata engedélyezett.
Miért fontos ez?
A jelenlegi helyzet az, hogy bárki – bármilyen AI rendszerrel – gyakorlatilag korlátozás nélkül betaníthatja a modelljeit az Ön weboldalának tartalmára. Ez különösen zavaró lehet például hírportálok, oktatási oldalak vagy egyedi szakértői blogok számára, ahol a szerzők saját szellemi munkájukat szeretnék védeni.
Noha az llms.txt egy próbálkozás volt ebbe az irányba, a gyakorlatban nem bizonyult hatékonynak, hiszen nem kötelező betartani, és a nagy cégek egyelőre figyelmen kívül is hagyják.
Az IETF által készülő szabvány viszont iparági támogatást élvez, és ha elfogadják, akkor végre létrejöhet egy egységes, kötelezően alkalmazható rendszer, amelyet a keresőmotoroknak és AI rendszereknek is figyelembe kell venniük.
Mire számíthatunk a közeljövőben?
Egyelőre még nem született végleges szabályozás, de az első javaslatokat már publikálták, és a résztvevő cégek láthatóan aktívak a folyamatban. Ez bíztató jel: elképzelhető, hogy a következő egy-két évben a robots.txt fájl nemcsak a keresőrobotokat, hanem az AI rendszereket is szabályozni fogja.
Ez különösen fontos lehet azok számára, akik szeretnék megvédeni a tartalmaikat attól, hogy engedély nélkül bekerüljenek a következő nagy nyelvi modell betanításába.
A szabadság a web egyik alapértéke – de nem kell, hogy egyenlő legyen a kontroll teljes hiányával. Ha az új protokoll valóban életbe lép, az nemcsak a tartalomgyártók érdekeit védi, hanem segíthet egy tisztább, átláthatóbb AI ökoszisztéma kialakításában is.
