Čo je Robots.txt?
Robots.txt je textový súbor v koreňovom adresári webu, ktorý hovorí vyhľadávačom a botom, ktoré časti stránky smú a nesmú prechádzať. Štandard bol navrhnutý Martijnom Kosterom v roku 1994 a formálne štandardizovaný v roku 2022.
Definícia Robots.txt
Definícia robots.txt
Robots.txt je súbor implementujúci Robots Exclusion Protocol — štandard, ktorý webové stránky používajú na komunikáciu s webovými crawlermi a botmi. Podľa Wikipédie bol štandard navrhnutý Martijnom Kosterom vo februári 1994, keď pracoval pre spoločnosť Nexor. Formálne bol štandardizovaný v roku 2022 ako RFC 9309.
Robots.txt funguje na princípe dobrovoľného dodržiavania — seriózne vyhľadávače (Google, Bing) ho rešpektujú, ale škodlivé boty ho môžu ignorovať. V 2020. rokoch sa robots.txt začal používať aj na blokovanie AI botov zbierajúcich dáta pre generatívnu umelú inteligenciu.
Ako robots.txt funguje
Súbor sa umiestňuje na vasadomena.sk/robots.txt a obsahuje pravidlá:
- User-agent — určuje, pre ktorého bota pravidlo platí (napr.
Googlebot,*pre všetkých) - Disallow — cesty, ktoré bot nesmie prechádzať (napr.
/admin/) - Allow — výnimky z Disallow pravidiel
- Sitemap — odkaz na XML sitemapu webu
- Crawl-delay — minimálny čas medzi požiadavkami (nie všetky boty to podporujú)
Dôležité obmedzenia
Robots.txt nie je bezpečnostný nástroj. Neblokuje prístup k stránkam — len žiada botov, aby ich neprechádzali. Ak chcete skutočne ochrániť obsah, musíte použiť autentifikáciu alebo firewall. Tiež nezabráni indexovaniu — ak na zablokovanú stránku vedú externé odkazy, Google ju môže zaindexovať aj bez prechádzania.
Praktický príklad
Príklad: Webstránka e-shopu.
Súbor robots.txt na adrese vaseshop.sk/robots.txt:
User-agent: *— pravidlá platia pre všetkých botovDisallow: /admin/— administráciu nech boty neindexujúDisallow: /kosik/— stránka košíka nemá byť vo vyhľadávaníDisallow: /moj-ucet/— osobné stránky zákazníkovAllow: /— všetko ostatné je povolenéSitemap: https://vaseshop.sk/sitemap.xml
Výsledok: Google indexuje produkty a kategórie, ale neindexuje admin panel, košík ani súkromné stránky zákazníkov.
Často kladené otázky
Čo je robots.txt?
Robots.txt je textový súbor v koreňovom adresári webu, ktorý hovorí vyhľadávačom a botom, ktoré časti stránky smú prechádzať. Bol navrhnutý v roku 1994 a je štandardom na riadenie prístupu crawlerov.
Zabráni robots.txt indexovaniu stránky?
Nie úplne. Robots.txt bráni crawlerom prechádzať stránku, ale ak na ňu vedú externé odkazy, Google ju môže zaindexovať aj bez prechádzania. Na úplné zabránenie indexovania použite meta tag noindex.
Kde sa nachádza robots.txt?
Robots.txt musí byť umiestnený v koreňovom adresári webu — teda na adrese vasadomena.sk/robots.txt. Vyhľadávače ho automaticky hľadajú na tejto adrese.
Je robots.txt povinný?
Nie, robots.txt nie je povinný. Ak neexistuje, vyhľadávače budú prechádzať celý web. Je však odporúčaný, aby ste kontrolovali, čo sa indexuje a čo nie.
Kto vytvoril robots.txt štandard?
Robots Exclusion Protocol navrhol Martijn Koster vo februári 1994. Formálne bol štandardizovaný v roku 2022 ako RFC 9309 pod záštitou IETF.
Súvisiace pojmy
Potrebujete pomôcť s webom?
Napíšte mi a poradím vám s vaším projektom. Prvá konzultácia je zadarmo a nezáväzná.