Hamarosan beleszólhatunk, hogyan használják fel a tartalmainkat az AI modellek?

Mennyi munkád landolt már AI-modellek tanítóanyagában? Fogalmad sincs, ugye? Egészen mostanáig nem is volt lehetőséged szabályozni ezt. A nagy nyelvi modellek (LLM-ek) évek óta az egész webet pásztázzák, engedély nélkül. De most valami elindult: egy új nemzetközi szabvány hamarosan lehetőséget adhat arra, hogy korlátokat állíts a mesterséges intelligencia elé.

Új protokoll születhet az AI modellek adatfelhasználására

A webes tartalomgyártás világában egyre nagyobb port kavarnak az olyan kérdések, mint hogy mihez van joga egy mesterséges intelligenciának, ha a mi munkánkból tanul. Az elmúlt években a nyílt web valóban kezdett hasonlítani a vadnyugatra: az AI modellek – különösen a generatív nyelvi modellek – lényegében szabadon "legelnek" az interneten, és a legtöbb weboldal-tulajdonosnak jelenleg semmiféle eszköze nincs arra, hogy ezt szabályozza.

Noha már korábban is voltak kísérletek arra, hogy a site-tulajdonosok kontrollt kapjanak (mint például az llms.txt nevű kezdeményezés), ezek gyakorlatilag süket fülekre találtak a nagy AI cégeknél – köztük a Google-nél is, akik nyíltan kijelentették: nem tartják be az llms.txt-ben megadott irányelveket.

Most azonban fordulhat a kocka: egy új nemzetközi szabvány kidolgozása indult el, amely a webes tartalmak AI általi felhasználására hozna átlátható, egységes szabályrendszert.

Új munkacsoport az IETF-nél: jönnek a szabályozott AI-hozzáférések?

2025 elején az Internet Engineering Task Force (IETF) megalapította az AI Preferences Working Group nevű munkacsoportot, amelynek célja, hogy létrehozza azokat az új, technikailag is megvalósítható protokollokat, amelyek lehetővé teszik a weboldalak üzemeltetőinek: pontosan meghatározhassák, hogy az AI rendszerek mit és hogyan használhatnak fel a webes tartalmaikból.

Az IETF egyébként az internet legalapvetőbb technikai protokolljainak (mint a HTTP, TCP/IP vagy a DNS) megalkotásáért felelős nemzetközi testület, így ha valahol érdemes reménykedni egy működőképes szabályrendszerben, akkor az náluk van.
A munkacsoport vezetésében több techóriás is részt vesz – többek közt a Google, a Meta és a Microsoft képviselői –, és az új irányelvek egyik társszerzője nem más, mint a Google ismert szakembere, Gary Illyes.

Mit tartalmaz az új szabvány?

Az IETF célja egy gépek által is értelmezhető, egységes szabálykészlet kidolgozása, amely a weboldal-tulajdonosoknak világos lehetőséget ad arra, hogy kifejezzék preferenciáikat az AI felhasználással kapcsolatban.

Ez a gyakorlatban három fő részből áll:

Egy új „szókincs” (vocabulary), amely leírja, milyen típusú AI felhasználások léteznek (például indexelés, AI-képzés, generatív modellek tanítása, stb.).
Technikai megoldások arra, hogyan kapcsoljuk ezeket a preferenciákat a konkrét webes tartalomhoz (például HTTP fejlécekben vagy a robots.txt fájlban).
Mechanizmusok arra, hogy ha egy oldal többféleképpen is jelzi a preferenciáit, akkor azt az AI rendszer hogyan értelmezze.

Hogyan működhet ez a gyakorlatban?

A javaslat szerint az AI rendszerek különböző kategóriákba sorolhatók, és ezekhez lehet szabályokat rendelni. A javasolt címkék például a következők:

search: tartalom indexelésre, keresőmotoros felfedezésre
train-ai: általános AI tréning célokra
train-genai: kifejezetten generatív modellek tanítására
bots: bármilyen automatikus feldolgozásra

Ezekhez a címkékhez kétféle értéket lehet hozzárendelni: y (engedélyezve) vagy n (tiltva). Az új protokoll lehetővé tenné, hogy például egy adott könyvtárat a weboldalon engedélyezzünk AI tréningre, miközben a többit kifejezetten tiltjuk.

Példa:

User-Agent: * Allow: / Disallow: /privat/ Content-Usage: train-genai=n Content-Usage: /ai-kepzesre-ok/ train-genai=y

Ez azt jelenti, hogy az oldal alapértelmezetten nem járul hozzá ahhoz, hogy a generatív AI modellek tanuljanak belőle, viszont a /ai-kepzesre-ok/ mappában található tartalmak használata engedélyezett.

Miért fontos ez?

A jelenlegi helyzet az, hogy bárki – bármilyen AI rendszerrel – gyakorlatilag korlátozás nélkül betaníthatja a modelljeit az Ön weboldalának tartalmára. Ez különösen zavaró lehet például hírportálok, oktatási oldalak vagy egyedi szakértői blogok számára, ahol a szerzők saját szellemi munkájukat szeretnék védeni.

Noha az llms.txt egy próbálkozás volt ebbe az irányba, a gyakorlatban nem bizonyult hatékonynak, hiszen nem kötelező betartani, és a nagy cégek egyelőre figyelmen kívül is hagyják.
Az IETF által készülő szabvány viszont iparági támogatást élvez, és ha elfogadják, akkor végre létrejöhet egy egységes, kötelezően alkalmazható rendszer, amelyet a keresőmotoroknak és AI rendszereknek is figyelembe kell venniük.

Mire számíthatunk a közeljövőben?

Egyelőre még nem született végleges szabályozás, de az első javaslatokat már publikálták, és a résztvevő cégek láthatóan aktívak a folyamatban. Ez bíztató jel: elképzelhető, hogy a következő egy-két évben a robots.txt fájl nemcsak a keresőrobotokat, hanem az AI rendszereket is szabályozni fogja.

Ez különösen fontos lehet azok számára, akik szeretnék megvédeni a tartalmaikat attól, hogy engedély nélkül bekerüljenek a következő nagy nyelvi modell betanításába.
A szabadság a web egyik alapértéke – de nem kell, hogy egyenlő legyen a kontroll teljes hiányával. Ha az új protokoll valóban életbe lép, az nemcsak a tartalomgyártók érdekeit védi, hanem segíthet egy tisztább, átláthatóbb AI ökoszisztéma kialakításában is.