SEOpokročilý

Čo je Robots.txt?

Robots.txt je textový súbor v koreňovom adresári webu, ktorý hovorí vyhľadávačom a botom, ktoré časti stránky smú a nesmú prechádzať. Štandard bol navrhnutý Martijnom Kosterom v roku 1994 a formálne štandardizovaný v roku 2022.

Definícia Robots.txt

Definícia robots.txt

Robots.txt je súbor implementujúci Robots Exclusion Protocol — štandard, ktorý webové stránky používajú na komunikáciu s webovými crawlermi a botmi. Podľa Wikipédie bol štandard navrhnutý Martijnom Kosterom vo februári 1994, keď pracoval pre spoločnosť Nexor. Formálne bol štandardizovaný v roku 2022 ako RFC 9309.

Robots.txt funguje na princípe dobrovoľného dodržiavania — seriózne vyhľadávače (Google, Bing) ho rešpektujú, ale škodlivé boty ho môžu ignorovať. V 2020. rokoch sa robots.txt začal používať aj na blokovanie AI botov zbierajúcich dáta pre generatívnu umelú inteligenciu.

Ako robots.txt funguje

Súbor sa umiestňuje na vasadomena.sk/robots.txt a obsahuje pravidlá:

  • User-agent — určuje, pre ktorého bota pravidlo platí (napr. Googlebot, * pre všetkých)
  • Disallow — cesty, ktoré bot nesmie prechádzať (napr. /admin/)
  • Allow — výnimky z Disallow pravidiel
  • Sitemap — odkaz na XML sitemapu webu
  • Crawl-delay — minimálny čas medzi požiadavkami (nie všetky boty to podporujú)

Dôležité obmedzenia

Robots.txt nie je bezpečnostný nástroj. Neblokuje prístup k stránkam — len žiada botov, aby ich neprechádzali. Ak chcete skutočne ochrániť obsah, musíte použiť autentifikáciu alebo firewall. Tiež nezabráni indexovaniu — ak na zablokovanú stránku vedú externé odkazy, Google ju môže zaindexovať aj bez prechádzania.

Praktický príklad

Príklad: Webstránka e-shopu.

Súbor robots.txt na adrese vaseshop.sk/robots.txt:

  • User-agent: * — pravidlá platia pre všetkých botov
  • Disallow: /admin/ — administráciu nech boty neindexujú
  • Disallow: /kosik/ — stránka košíka nemá byť vo vyhľadávaní
  • Disallow: /moj-ucet/ — osobné stránky zákazníkov
  • Allow: / — všetko ostatné je povolené
  • Sitemap: https://vaseshop.sk/sitemap.xml

Výsledok: Google indexuje produkty a kategórie, ale neindexuje admin panel, košík ani súkromné stránky zákazníkov.

Často kladené otázky

Čo je robots.txt?

Robots.txt je textový súbor v koreňovom adresári webu, ktorý hovorí vyhľadávačom a botom, ktoré časti stránky smú prechádzať. Bol navrhnutý v roku 1994 a je štandardom na riadenie prístupu crawlerov.

Zabráni robots.txt indexovaniu stránky?

Nie úplne. Robots.txt bráni crawlerom prechádzať stránku, ale ak na ňu vedú externé odkazy, Google ju môže zaindexovať aj bez prechádzania. Na úplné zabránenie indexovania použite meta tag noindex.

Kde sa nachádza robots.txt?

Robots.txt musí byť umiestnený v koreňovom adresári webu — teda na adrese vasadomena.sk/robots.txt. Vyhľadávače ho automaticky hľadajú na tejto adrese.

Je robots.txt povinný?

Nie, robots.txt nie je povinný. Ak neexistuje, vyhľadávače budú prechádzať celý web. Je však odporúčaný, aby ste kontrolovali, čo sa indexuje a čo nie.

Kto vytvoril robots.txt štandard?

Robots Exclusion Protocol navrhol Martijn Koster vo februári 1994. Formálne bol štandardizovaný v roku 2022 ako RFC 9309 pod záštitou IETF.

Súvisiace pojmy

Potrebujete pomôcť s webom?

Napíšte mi a poradím vám s vaším projektom. Prvá konzultácia je zadarmo a nezáväzná.