Pavyzdys failų robots.txt Jūsų svetainė

Robots.txt failas, saugomas jūsų svetainės šaknyje, praneša žiniatinklio robotams, kaip paieškos varikliams, kokius katalogus ir failus jie gali nuskaityti. Failo robots.txt paprasta naudoti, tačiau yra keletas dalykų, kuriuos turėtumėte prisiminti:

  1. "Black hat" žiniatinklio robotai ignoruoja jūsų robots.txt failą. Dažniausiai pasitaikantys tipai yra kenkėjiškų programų robotų ir robotai, ieškantys el. Pašto adresų derliaus nuėmimui.
  2. Kai kurie nauji programuotojai parašys robotai, kurie ignoruoja robots.txt failą. Paprastai tai atliekama klaidingai.
  1. Kiekvienas gali matyti failą robots.txt. Jie visada vadinami robots.txt ir visada saugomi svetainės šaknyje.
  2. Galų gale, jei kas nors susieja failą ar katalogą, kurio failas robots.txt buvo pašalintas iš puslapio, kurio robots.txt failas nėra pašalintas, paieškos varikliai vis tiek gali jį rasti.

Nenaudokite robots.txt failų, kad paslėptumėte ką nors svarbų. Vietoj to, turėtumėte įdėti svarbią informaciją už saugių slaptažodžių arba visiškai palikti ją internete.

Kaip naudotis šiais mėginių failais

Kopijuoti tekstą iš pavyzdžio, kuris yra arčiausiai to, ką norite padaryti, ir įklijuokite jį robots.txt failo atmintyje. Keiskite robotą, katalogą ir failų pavadinimus, kad atitiktumėte pageidaujamą konfigūraciją.

Du pagrindiniai robots.txt failai

Vartotojo atstovas: *
Neleisti: /

Šiame faile teigiama, kad bet kuris robotas (User-agent: *), kuris prie jo prisijungia, turėtų ignoruoti kiekvieną svetainės puslapį (Disallow: /).

Vartotojo atstovas: *
Neleisti:

Šiame faile teigiama, kad bet koks robotas ("User-agent: *"), prie kurio prisijungia, gali peržiūrėti kiekvieną svetainės puslapį (Disallow:).

Taip pat galite tai padaryti, paliekant robots.txt failą tuščią arba visiškai neturint jo svetainėje.

Apsaugokite konkrečius katalogus iš robočių

Vartotojo atstovas: *
Neleisti: / cgi-bin /
Neleisti: / temp /

Šiame faile teigiama, kad bet koks robotas (User-agent: *), kuris prie jo prisijungia, turėtų ignoruoti katalogus / cgi-bin / ir / temp / (Disallow: / cgi-bin / Disallow: / temp /).

Apsaugokite konkrečius puslapius iš robočių

Vartotojo atstovas: *
Neleiskite: /jenns-stuff.htm
Neleiskite: /private.php

Šiame faile teigiama, kad bet koks robotas (User-agent: *), kuris prie jo prisijungia, turėtų ignoruoti failus /jenns-stuff.htm ir /private.php (Disallow: /jenns-stuff.htm Disallow: /private.php).

Neleiskite konkrečiam robotui patekti į jūsų svetainę

Naudotojo agentas: Lycos / xx
Neleisti: /

Šiame faile teigiama, kad Lycos bot (User-agent: Lycos / xx) neleidžiama pasiekti bet kurioje svetainės vietoje (Disallow: /).

Leisti tik vieną konkrečią prieigą prie roboto

Vartotojo atstovas: *
Neleisti: /
Naudotojo agentas: "Googlebot"
Neleisti:

Visų pirma šis failas atmetė visus robotus, kaip mes padarėme aukščiau, o tada aiškiai leidžia "Googlebot" ("User-agent:" Googlebot ") turėti prieigą prie visko (" Disallow: ").

Sujunkite kelias linijas, kad gautumėte tiksliai reikalingas išimtis

Nors geriau naudoti labai įtraukią "User-agent" eilutę, pvz., "User-agent": *, galite būti tokia pat specifika, kokią jums patinka. Atminkite, kad robotai skaito failą pagal tvarką. Taigi, jei pirmosios eilutės sako, kad visi robotai yra užblokuoti iš visko, o vėliau rinkmenoje sakoma, kad visiems robotams leidžiama pasiekti viską, robotai turės prieigą prie visko.

Jei nesate tikri, ar teisingai įrašėte failą robots.txt, galite naudoti "Google" žiniatinklio valdytojo įrankius, kad patikrintumėte failą robots.txt arba parašytumėte naują.