Robots.txt mire való? Robots.txt hogyan működik? Robots.txt definíciója, Robots.txt

robots.txt

A robots.txt definíciója

A robots.txt egy egyszerű szöveges fájl, amelyben a „robots kizárási protokoll” utasításaival szabályozhatod az oldalaidhoz való hozzáférést a webhelyedre érkező feltérképező robotok számára. SEO szemszögéből ez különösen fontos, hiszen a robots.txt segítségével megszabhatod, hogy a keresőmotorok robotjai mely oldalakat vehetik fel az indexbe, és melyeket nem.
Félreértés ne essék – a robots.txt-vel nem utasíthatod arra a keresőmotorokat, hogy eltávolítsák webhelyed oldalait az indexükből, azt azonban megszabhatod nekik, hogy egy még nem indexelt oldalt a jövőben ne is vegyék fel az indexükbe. Ehhez a noindex direktívát kell használni a robots.txt fájlban, vagy egy jelszóval kell levédeni az oldalt a robotok elől.

 

A robots.txt fájl fő célja valójában a feltérképezési keret kezelése. A feltérképezési keret azt jelenti, hogy a keresőmotorok robotjai egy-egy látogatásuk során nem feltétlenül vizsgálják meg az összes oldalt webhelyeden, így meglehet, hogy nem kerül be minden az indexbe az első alkalommal, amikor webhelyedre érkeznek. Ez különösen a nagyobb webhelyeken jelenthet problémát.

 

Azzal, hogy kizárod a keresőmotorok robotjait a kevésbé fontos oldalaidról (amik nem baj, ha nem jelennek meg a Google keresőtalálatai között), biztosíthatod, hogy a robotok a fontosabb oldalakra fordítsák figyelmüket webhelyed feltérképezése közben.

 

A robots.txt működése

A keresőmotoroknak két fő feladatuk van: az internet oldalainak feltérképezése, illetve azok tartalmának indexelése, hogy a későbbiekben gyorsan visszakereshessék őket a felhasználók.

A keresőmotorok úgynevezett „robotokkal” végzik az internet feltérképezését. Ezek a robotok a hivatkozásokon keresztül navigálnak a weboldalak és webhelyek között. Amikor egy ilyen robot megérkezik valamelyik webhelyre, először mindig a robots.txt fájl tartalmát vizsgálja meg, és figyelembe veszi az abban előírt tiltásokat és egyéb direktívákat. Ezt követően a robot folytatja a feltérképezést azokon az oldalakon, amelyeket a robots.txt nem tiltott meg neki.

 

Miért van szükség a robots.txt-re?

A robots.txt fájl segítségével megszabhatod, hogy a keresőmotorok webhelyed mely oldalaihoz férjenek hozzá.
Mint fentebb már elhangzott, ez nagyon hasznos lehet a feltérképezési keret kezelése miatt, de ezen kívül több mindenre is használható:
•    Elkerülheted, hogy a robotok többször előforduló tartalmakat térképezzenek fel
•    Elkerülheted a webhely beépített keresőmotorjának feltérképezését
•    Elkerülheted bizonyos képek feltérképezését webhelyeden
•    Megadhatod a webhelytérkép elérési útját
•    Késleltetheted a feltérképezést, hogy a feltérképező robotok ne terheljék túl a szervert, amikor egyszerre több tartalmat próbálnak betölteni

 

A robots.txt fájl helytelen használata rendkívül veszélyes lehet, hiszen elég csupán néhány rosszul beírt karakter, és akár az egész webhelyedről kitilthatod a Google és más keresőmotorok feltérképező robotjait. Éppen ezért nagyon fontos rendszeresen ellenőrizni a robots tartalmát, és odafigyelni a helytelenül megadott utasításokra.

 

A robots.txt szintaxisa

A robots.txt fájl utasítási blokkokból áll, illetve bizonyos esetekben a webhelytérkép direktívákat is tartalmazza.
Minden utasítási blokknak két része van:
•    Egy vagy több „user-agent” direktíva: Ez azt jelöli, hogy mely robotoknak szól az adott utasítás.
•    Egy vagy több parancs: Ezek azok a korlátozások, amelyeket a robotoknak figyelembe kell venniük. Ilyen például a „disallow”, ami megtiltja a webhely egy részének feltérképezését.

 

Mi az a user agent?

Amikor egy program csatlakozik az internethez (ez a program lehet egy keresőmotor robotja vagy egy felhasználó webböngészője), akkor egy bizonyos user agentként azonosítja magát.
Minden böngészőnek és robotnak saját user agent azonosítója van – a Google által használt feltérképező robot „user agentje” például a „Googlebot”.

 

Hová kell helyezni a robots.txt fájlt?

Könnyedén ellenőrizheted, hogy webhelyed rendelkezik-e robots.txt fájllal. Nincs más dolgod, mint beírni az oldal URL címét a böngészőbe, majd utána beilleszteni, hogy /robots.txt – például:

https://hu.wikipedia.org/robots.txt

Ha nem jelenik meg a fentihez hasonló szöveges fájl a böngészőben, akkor webhelyednek nincs (elérhető) robots.txt fájlja.
A robots.txt fájlt a webhely gyökér (root) könyvtárában kell létrehozni, vagy oda kell bemásolni, miután elkészítetted.

 

Tippek a robots.txt megfelelő használatához

Mint fentebb olvashattad, a robots.txt helytelen használata súlyos SEO problémákhoz vezethet. Íme néhány jó tanács a robots fájl helyes használatához:
•    Ügyelj rá, hogy ne zárd ki a feltérképezésből azokat a tartalmakat, amelyeket szeretnéd, hogy bekerüljenek a keresőmotorok indexébe.
•    A feltérképezésből kizárt oldalakon elhelyezett hivatkozásokat a keresőmotorok nem követik. Tegyük fel, hogy „B” oldalra csak „A” oldalról mutatnak linkek, de „A” oldal feltérképezését megtiltottad a keresőmotoroknak. A keresőmotorok nem fogják tudni feltérképezni és indexelni „B” oldal tartalmát, mert a tiltás miatt nem férhetnek hozzá az „A” oldalon szereplő linkekhez. Ez akkor is így van, ha „B” oldal feltérképezését nem tiltottad meg a keresőmotoroknak.
•    Ne arra használd a robots.txt fájlt, hogy érzékeny adatokat rejts el a keresőmotorok találati oldalairól. Ha más oldalak is hivatkoznak erre az oldalra, akkor elképzelhető, hogy ezek a szenzitív adatok megjelennek majd a keresőtalálatok között. Az ilyen oldalakat más módszerekkel, például jelszavakkal vagy a noindex meta direktívával rejtsd el a keresőmotorok elől.
•    Egyes keresőmotorok több user agentet is használnak. A Google-nak például nem a „Googlebot” az egyetlen robotja, hanem ott van például a „Googlebot-Image” és a „Googlebot-News” is. Egy keresőmotor legtöbb user agentje általában ugyan azokat a szabályokat követik, ezért nem feltétlenül muszáj külön-külön korlátozni őket.
•    A keresőmotorok gyorsítótárba helyezik a robots.txt fájl tartalmát, habár ez a gyorsítótár általában napi rendszerességgel frissül. Ha megváltoztattad a robots.txt fájlt, és szeretnéd, hogy azonnal frissüljön ez egy a keresőmotoroknál is, akkor küldd be azt az adott keresőmotor webmesteri felületén (pl. Google Search Console).