Jak správně nastavit robots.txt ???

Jak správně nastavit robots.txt ???

Co je robots.txt? Jedná se o textový soubor umístěný v kořenovém adresáři webu (www.vasedomena.cz/robots.txt), pojmenován malými písmeny (nikoliv Robots.txt), který ovlivňuje chování vyhledávacích robotů na webové stránce.

Vyhledávací roboti (zkráceně boti) mají za úkol neustále indexovat obsah webových stránek a udržovat ho aktuální. Jakmile zaindexují webovou stránku, dřív nebo později se k ní vrátí a prohledají obsah znovu. Zkontrolují existující obsah a indexují obsah nový. Čím je stránka populárnější, tím častěji se na ní roboti vracejí.

V praxi to znamená, že pokud hledáte nějaké klíčové slovo pomocí Googlu či Seznamu, nehledáte ve skutečnosti na internetu, ale v jejich databázi indexovaného obsahu. Proto by mělo být cílem každého provozovatele webové stránky mít obsah správně indexován v co největší míře.

Bot se nejdřív podívá do souboru robots.txt a pak buď pokračuje dál na stránky, nebo jen do konkrétní složky. Můžeme mu zakázat přístup úplně, nebo povolit jen k některým složkám. Vyhledávacích botů jsou desítky a pro každého můžeme mít nastavena jiná pravidla. Veškeré nastavení se zapisuje jako text právě v souboru robots.txt.

Nejznámější vyhledávací roboti jsou GoogelbotSeznambotBingbot(Microsoft) a Slurp (Yahoo).

Příklad zápisu v souboru, kdy chceme povolit přístup všem robotům všude:

User-agent: *
Disallow:

Tento zápis zakazuje přístup všem robotům všude:

User-agent: *
Disallow: /

Zakázat přístup pro Google robota do adresáře test můžete takto:

User-agent: Googlebot
Disallow: /test

Pro stránky v českém jazyce stačí povolit přístup robotům Seznam a Google. Ostatní záleží na Vás.

User-agent: GoogleBot
Disallow:

User-agent: Seznambot
Disallow:

Chování robotů pro subdomény je potřeba nastavit zvlášť. Máte-li na subdoméně nějaký testovací web test.mujweb.cz a nepřejete si indexovat tento obsah, aby nedošlo k duplicitě obsahu a penalizaci SEO, musíte vytvořit zvlášť soubor robots.txt, vložit do adresáře subdomény a zakázat robotům vstup.

User-agent: *
Disallow: /

Zakázat robotům sledovat odkazy a indexovat stránky můžete i mimo soubor robots.txt přidáním příznaku rel=“nofollow“ do html tagu. S možností index, noindex, follow a nofollow se můžete setkat v redakčních systémech jako je WordPress, Joomla apod.

Komentovat