Oikea robots.txt

Tiedosto robots.txt on tärkein tiedosto, joka kuvaa käsittelysäännöt sivut hakukoneet. Tämä tiedosto on tarpeen määrittää ensisijaisen sivuston nimi, sivuston kartta (sitemap.xml), julkisen ja yksityisen osa-sivuston.
Tiedosto robots.txt sisältää seuraavat direktiivit:

  • User-agent-Direktiivi määrittää, mitä robotti seuraavia sääntöjä
    • * - kaikki robotit
    • Yandex — tärkeimmät robotti Yandex
    • Googlebot — Googlebot on tärkein
    • StackRambler — hakukone Rambler
    • Aport — Aport hakukone
    • Slurp on Yahoon robotti
    • MSNBot on MSN robotti
  • Estää Direktiivi on kieltää osa sivuston
  • Anna — Direktiivissä sallitaan se, että osa verkkosivuilla
  • Host — Direktiivi määrittää ensisijaisen sivuston nimi
  • Sivukartta— Direktiivin ohjausta sivuston kartta (sitemap.xml)
  • Crawl-delay-Direktiivi määrittää, miten monta sekuntia robotti voi odottaa vastauksen sivusto (pakollinen kuormitetuissa resursseja, joten robotti ei harkita sivusto ei ole käytettävissä)
  • Puhdista-param Direktiivin kuvaavat dynaamiset parametrit eivät vaikuta sivuston sisällön perusteella

Помимо директив в robots.txt используются спец символы:

  • * - lubi (myös tyhjä) merkkijono
  • dollaria — on rajoitus sääntöjä

Koota robots.txt käytä yllä suuntaviivat ja laulama merkkiä seuraavasti:

  • Määrittää nimi robotti, joka on kirjoittanut listan säännöt
    (User-agent: * - sääntö kaikki robotit)
  • Oikeinkirjoituksen listan kielletyistä osa-sivuston tietyn robotti
    ( Disallow: / - indeksoinnin koko sivusto)
  • Oikeinkirjoituksen luettelo sallituista osa-sivuston
    (Salli: /home/ — osio kotiin sallittu)
  • Määrittää nimi verkkosivuilla
    (Isäntä: crazysquirrel.ru — tärkein sivuston nimeä crazysquirrel.ru)
  • Määrittää absoluuttisen polun tiedoston sitemap.xml
    (Sivukartta: https:// crazysquirrel.ru/sitemap.xml)

Jos sivusto on ei laittoman aiheita, robots.txt on oltava vähintään 4 riviä:

User-Agent: *
Salli: /
Isäntä: crazysquirrel.ru
Sivukartta: https://crazysquirrel.ru/sitemap.xml

Tarkista robots.txt ja miten se vaikuttaa indeksointi verkkosivuilla käyttämällä työkaluja Yandex

Katsella ja jättää kommentteja