Tiedosto robots.txt on tärkein tiedosto, joka kuvaa käsittelysäännöt sivut hakukoneet. Tämä tiedosto on tarpeen määrittää ensisijaisen sivuston nimi, sivuston kartta (sitemap.xml), julkisen ja yksityisen osa-sivuston.
Tiedosto robots.txt sisältää seuraavat direktiivit:
- User-agent-Direktiivi määrittää, mitä robotti seuraavia sääntöjä
- * - kaikki robotit
- Yandex — tärkeimmät robotti Yandex
- Googlebot — Googlebot on tärkein
- StackRambler — hakukone Rambler
- Aport — Aport hakukone
- Slurp on Yahoon robotti
- MSNBot on MSN robotti
- Estää Direktiivi on kieltää osa sivuston
- Anna — Direktiivissä sallitaan se, että osa verkkosivuilla
- Host — Direktiivi määrittää ensisijaisen sivuston nimi
- Sivukartta— Direktiivin ohjausta sivuston kartta (sitemap.xml)
- Crawl-delay-Direktiivi määrittää, miten monta sekuntia robotti voi odottaa vastauksen sivusto (pakollinen kuormitetuissa resursseja, joten robotti ei harkita sivusto ei ole käytettävissä)
- Puhdista-param Direktiivin kuvaavat dynaamiset parametrit eivät vaikuta sivuston sisällön perusteella
Помимо директив в robots.txt используются спец символы:
- * - lubi (myös tyhjä) merkkijono
- dollaria — on rajoitus sääntöjä
Koota robots.txt käytä yllä suuntaviivat ja laulama merkkiä seuraavasti:
- Määrittää nimi robotti, joka on kirjoittanut listan säännöt
(User-agent: * - sääntö kaikki robotit) - Oikeinkirjoituksen listan kielletyistä osa-sivuston tietyn robotti
( Disallow: / - indeksoinnin koko sivusto) - Oikeinkirjoituksen luettelo sallituista osa-sivuston
(Salli: /home/ — osio kotiin sallittu) - Määrittää nimi verkkosivuilla
(Isäntä: crazysquirrel.ru — tärkein sivuston nimeä crazysquirrel.ru) - Määrittää absoluuttisen polun tiedoston sitemap.xml
(Sivukartta: https:// crazysquirrel.ru/sitemap.xml)
Jos sivusto on ei laittoman aiheita, robots.txt on oltava vähintään 4 riviä:
User-Agent: *
Salli: /
Isäntä: crazysquirrel.ru
Sivukartta: https://crazysquirrel.ru/sitemap.xml
Tarkista robots.txt ja miten se vaikuttaa indeksointi verkkosivuilla käyttämällä työkaluja Yandex