Robots.txt mire való? Robots.txt hogyan működik? Robots.txt definíciója, Robots.txt

Robots.txt

Robots.txt

robots.txt

A robots.txt definíciója

A robots.txt egy egyszerű szöveges fájl, amelyben a „robots kizárási protokoll” utasításaival szabályozhatod az oldalaidhoz való hozzáférést a webhelyedre érkező feltérképező robotok számára. SEO szemszögéből ez különösen fontos, hiszen a robots.txt segítségével megszabhatod, hogy a keresőmotorok robotjai mely oldalakat vehetik fel az indexbe, és melyeket nem.
Félreértés ne essék – a robots.txt-vel nem utasíthatod arra a keresőmotorokat, hogy eltávolítsák webhelyed oldalait az indexükből, azt azonban megszabhatod nekik, hogy egy még nem indexelt oldalt a jövőben ne is vegyék fel az indexükbe. Ehhez a noindex direktívát kell használni a robots.txt fájlban, vagy egy jelszóval kell levédeni az oldalt a robotok elől.

 

A robots.txt fájl fő célja valójában a feltérképezési keret kezelése. A feltérképezési keret azt jelenti, hogy a keresőmotorok robotjai egy-egy látogatásuk során nem feltétlenül vizsgálják meg az összes oldalt webhelyeden, így meglehet, hogy nem kerül be minden az indexbe az első alkalommal, amikor webhelyedre érkeznek. Ez különösen a nagyobb webhelyeken jelenthet problémát.

 

Azzal, hogy kizárod a keresőmotorok robotjait a kevésbé fontos oldalaidról (amik nem baj, ha nem jelennek meg a Google keresőtalálatai között), biztosíthatod, hogy a robotok a fontosabb oldalakra fordítsák figyelmüket webhelyed feltérképezése közben.

 

A robots.txt működése

A keresőmotoroknak két fő feladatuk van: az internet oldalainak feltérképezése, illetve azok tartalmának indexelése, hogy a későbbiekben gyorsan visszakereshessék őket a felhasználók.

A keresőmotorok úgynevezett „robotokkal” végzik az internet feltérképezését. Ezek a robotok a hivatkozásokon keresztül navigálnak a weboldalak és webhelyek között. Amikor egy ilyen robot megérkezik valamelyik webhelyre, először mindig a robots.txt fájl tartalmát vizsgálja meg, és figyelembe veszi az abban előírt tiltásokat és egyéb direktívákat. Ezt követően a robot folytatja a feltérképezést azokon az oldalakon, amelyeket a robots.txt nem tiltott meg neki.

 

Miért van szükség a robots.txt-re?

A robots.txt fájl segítségével megszabhatod, hogy a keresőmotorok webhelyed mely oldalaihoz férjenek hozzá.
Mint fentebb már elhangzott, ez nagyon hasznos lehet a feltérképezési keret kezelése miatt, de ezen kívül több mindenre is használható:
•    Elkerülheted, hogy a robotok többször előforduló tartalmakat térképezzenek fel
•    Elkerülheted a webhely beépített keresőmotorjának feltérképezését
•    Elkerülheted bizonyos képek feltérképezését webhelyeden
•    Megadhatod a webhelytérkép elérési útját
•    Késleltetheted a feltérképezést, hogy a feltérképező robotok ne terheljék túl a szervert, amikor egyszerre több tartalmat próbálnak betölteni

 

A robots.txt fájl helytelen használata rendkívül veszélyes lehet, hiszen elég csupán néhány rosszul beírt karakter, és akár az egész webhelyedről kitilthatod a Google és más keresőmotorok feltérképező robotjait. Éppen ezért nagyon fontos rendszeresen ellenőrizni a robots tartalmát, és odafigyelni a helytelenül megadott utasításokra.

 

A robots.txt szintaxisa

A robots.txt fájl utasítási blokkokból áll, illetve bizonyos esetekben a webhelytérkép direktívákat is tartalmazza.
Minden utasítási blokknak két része van:
•    Egy vagy több „user-agent” direktíva: Ez azt jelöli, hogy mely robotoknak szól az adott utasítás.
•    Egy vagy több parancs: Ezek azok a korlátozások, amelyeket a robotoknak figyelembe kell venniük. Ilyen például a „disallow”, ami megtiltja a webhely egy részének feltérképezését.

 

Mi az a user agent?

Amikor egy program csatlakozik az internethez (ez a program lehet egy keresőmotor robotja vagy egy felhasználó webböngészője), akkor egy bizonyos user agentként azonosítja magát.
Minden böngészőnek és robotnak saját user agent azonosítója van – a Google által használt feltérképező robot „user agentje” például a „Googlebot”.

 

Hová kell helyezni a robots.txt fájlt?

Könnyedén ellenőrizheted, hogy webhelyed rendelkezik-e robots.txt fájllal. Nincs más dolgod, mint beírni az oldal URL címét a böngészőbe, majd utána beilleszteni, hogy /robots.txt – például:

https://hu.wikipedia.org/robots.txt

Ha nem jelenik meg a fentihez hasonló szöveges fájl a böngészőben, akkor webhelyednek nincs (elérhető) robots.txt fájlja.
A robots.txt fájlt a webhely gyökér (root) könyvtárában kell létrehozni, vagy oda kell bemásolni, miután elkészítetted.

 

Tippek a robots.txt megfelelő használatához

Mint fentebb olvashattad, a robots.txt helytelen használata súlyos SEO problémákhoz vezethet. Íme néhány jó tanács a robots fájl helyes használatához:
•    Ügyelj rá, hogy ne zárd ki a feltérképezésből azokat a tartalmakat, amelyeket szeretnéd, hogy bekerüljenek a keresőmotorok indexébe.
•    A feltérképezésből kizárt oldalakon elhelyezett hivatkozásokat a keresőmotorok nem követik. Tegyük fel, hogy „B” oldalra csak „A” oldalról mutatnak linkek, de „A” oldal feltérképezését megtiltottad a keresőmotoroknak. A keresőmotorok nem fogják tudni feltérképezni és indexelni „B” oldal tartalmát, mert a tiltás miatt nem férhetnek hozzá az „A” oldalon szereplő linkekhez. Ez akkor is így van, ha „B” oldal feltérképezését nem tiltottad meg a keresőmotoroknak.
•    Ne arra használd a robots.txt fájlt, hogy érzékeny adatokat rejts el a keresőmotorok találati oldalairól. Ha más oldalak is hivatkoznak erre az oldalra, akkor elképzelhető, hogy ezek a szenzitív adatok megjelennek majd a keresőtalálatok között. Az ilyen oldalakat más módszerekkel, például jelszavakkal vagy a noindex meta direktívával rejtsd el a keresőmotorok elől.
•    Egyes keresőmotorok több user agentet is használnak. A Google-nak például nem a „Googlebot” az egyetlen robotja, hanem ott van például a „Googlebot-Image” és a „Googlebot-News” is. Egy keresőmotor legtöbb user agentje általában ugyan azokat a szabályokat követik, ezért nem feltétlenül muszáj külön-külön korlátozni őket.
•    A keresőmotorok gyorsítótárba helyezik a robots.txt fájl tartalmát, habár ez a gyorsítótár általában napi rendszerességgel frissül. Ha megváltoztattad a robots.txt fájlt, és szeretnéd, hogy azonnal frissüljön ez egy a keresőmotoroknál is, akkor küldd be azt az adott keresőmotor webmesteri felületén (pl. Google Search Console).
 

Online marketing blog

Tudásunk naprakész, melyből ügyfeleink profitálnak

15 év, közel 500 sikeres tanácsadási projekt, több, mint 100 vállalkozás komplett online marketingje.

Legyen a Tiéd a következő sikertörténetünk!




Jelentkezz auditunkra még ma!

Marketing Professzorok