SEOpokročilý

Čo je Crawling (Prehľadávanie webu)?

Crawling je automatizovaný proces, pri ktorom web crawler (bot) systematicky prehľadáva internet, navštevuje webstránky a sťahuje ich obsah. Googlebot — crawler Googlu — takto objavuje nové a aktualizované stránky pre indexovanie.

Definícia Crawling (Prehľadávanie webu)

Čo je web crawling

Web crawler (tiež nazývaný spider alebo spiderbot) je podľa Wikipedie internetový bot, ktorý systematicky prehľadáva World Wide Web a je typicky prevádzkovaný vyhľadávačmi na účely webového indexovania. Web crawlery kopírujú stránky na spracovanie vyhľadávačom, ktorý ich zaindexuje, aby používatelia mohli efektívnejšie vyhľadávať.

Ako crawling funguje

Podľa Wikipedie crawler začína so zoznamom URL adries na navštívenie — tieto prvé URL sa nazývajú seeds (semienka). Keď crawler navštívi tieto URL, identifikuje všetky hypertextové odkazy na stiahnutých stránkach a pridá ich do zoznamu URL na navštívenie, nazývaného crawl frontier. URL z frontieru sú rekurzívne navštevované podľa nastavených pravidiel.

  • Googlebot — crawler Googlu, ktorý prehľadáva web a dodáva dáta pre Google Search
  • Crawl budget — počet stránok, ktoré Googlebot navštívi na vašom webe v danom období. Väčšie a autoritatívnejšie weby majú väčší budget.
  • robots.txt — súbor v koreňovom adresári webu, ktorý hovorí crawlerom, ktoré časti webu smú a nesmú prehľadávať
  • Crawl-delay — niektoré crawlery (Bing, Yandex) podporujú direktívu, ktorá obmedzuje frekvenciu návštev. Google túto direktívu ignoruje, ale ponúka nastavenie cez Search Console.

Crawling a SEO

Ak Googlebot nemôže navštíviť vašu stránku, nemôže ju zaindexovať — a teda sa neobjaví vo výsledkoch. Štúdia z roku 2009 ukázala, že aj veľké vyhľadávače indexujú len 40-70 % indexovateľného webu. Preto je dôležité uľahčiť crawlerom prácu — čistá štruktúra odkazov, XML sitemap a správny robots.txt.

Praktický príklad

Príklad: Máte web s 50 stránkami.

Googlebot navštívi vašu hlavnú stránku, nájde na nej odkazy na podstránky „Služby", „O nás", „Blog" a postupne ich navštívi. Na blogu nájde odkazy na jednotlivé články a navštívi aj tie.

Problém: Ak niektoré stránky nemajú žiadny interný odkaz (sú „osirotené"), Googlebot ich nikdy nenájde.

Riešenie: Každá dôležitá stránka musí byť dostupná cez interný odkaz a zahrnutá v XML sitemap. Tak zabezpečíte, že Googlebot objaví a zaindexuje celý váš web.

Často kladené otázky

Čo je crawling (prehľadávanie webu)?

Crawling je proces, pri ktorom web crawler (bot ako Googlebot) automaticky navštevuje webstránky, sleduje odkazy a sťahuje obsah stránok na zaindexovanie do vyhľadávača.

Čo je Googlebot?

Googlebot je web crawler (bot) spoločnosti Google, ktorý systematicky prehľadáva webstránky na internete. Stiahnuté stránky spracuje a zaindexuje, aby sa mohli zobrazovať vo výsledkoch Google vyhľadávania.

Čo je crawl budget?

Crawl budget je počet stránok, ktoré Googlebot navštívi na vašom webe v určitom období. Pre malé weby (do 1 000 stránok) to väčšinou nie je problém, ale veľké weby musia optimalizovať, aby Googlebot navštívil najdôležitejšie stránky.

Čo je robots.txt?

Robots.txt je textový súbor v koreňovom adresári vášho webu, ktorý hovorí web crawlerom (Googlebot, Bingbot), ktoré stránky smú a ktoré nesmú navštíviť a indexovať.

Súvisiace pojmy

Potrebujete pomôcť s webom?

Napíšte mi a poradím vám s vaším projektom. Prvá konzultácia je zadarmo a nezáväzná.