Какво е robots.txt? И защо е важен?

Robots.txt е текстов файл, създаден от уеб администратори, за да инструктира уеб роботите (обикновено роботи за търсачки) как да обхождат страници в уебсайта. Файлът robots.txt е част от протокола за изключване на роботи (REP) – група от стандарти за уеб, които регулират начина, по който роботите обхождат мрежата, достъпа и съдържанието на индексите и обслужват това съдържание до потребителите. REP също така включва директиви като мета роботи, както и указания за страници, поддиректории или цели сайтове за това как търсачките трябва да третират връзки (като „follow“ или „nofollow“).

На практика файловете robots.txt указват дали някои потребителски агенти (софтуер за обхождане на уеб) могат или не могат да обхождат части от уебсайт. Тези указания за обхождане се задават чрез „отказване“ или „разрешаване“ на поведението на някои (или всички) потребителски агенти.

Базов формат

User-agent: [user-agent name]

Disallow: [URL string not to be crawled]

Заедно тези два реда се считат за пълен файл robots.txt – въпреки че един файл с роботи може да съдържа няколко реда потребителски агенти и директиви (т.е. забранява, разрешава, забавя обхождането и т.н.).

Ето и няколко готови команди:

  1. Блокиране на всички уеб роботи от цялото съдържание

User-agent: *

Disallow: /

Използването на този синтаксис във файла би указало на всички уеб роботи да не обхождат никакви страници в сайта, включително и началната страница.

  1. Позволяване на достъп на всички уеб роботи до цялото съдържание:

User-agent: *

Disallow:

Използването на този синтаксис във файла указва на уеб роботите да обхождат всички страници в сайта, включително и началната страница.

  1. Блокиране на конкретен робот за обхождане на конкретна папка

User-agent: Googlebot

Disallow: /example-subfolder/

Този синтаксис кара само робота на Google (потребителско име Googlebot) да не обхожда страници, съдържащи низ на URL адрес www.example.com/example-subfolder/.

  1. Блокиране на конкретен робот за обхождане на конкретна уеб страница

User-agent: Bingbot

Disallow: /example-subfolder/blocked-page.html

Този синтаксис указва само робота на Bing (потребителско име агент Bing), за да избегне обхождането на конкретната страница на адрес www.example.com/example-subfolder/blocked-page.

 

Как работи robots.txt?

Търсачките имат две основни длъжности:

  1. Обхождане на мрежата за откриване на съдържание;
  2. Индексиране на това съдържание, така че да може да се обслужва на търсещите, които търсят конкретната информация.

За да обхождат сайтове, търсачките следват връзки, за да стигнат от един сайт на друг. Това поведение за обхождане понякога се нарича „spidering“.

След като пристигне на уебсайта, роботът за търсене ще търси файл robots.txt. Ако намери такъв, роботът първо ще прочете този файл, преди да продължи през страницата. Тъй като файлът robots.txt съдържа информация за начина, по който трябва да обхожда търсещата машина, информацията, намерена там, ще даде указания за по-нататъшно действие на робота на този конкретен сайт. Ако файлът robots.txt не съдържа директиви, които забраняват активността на потребителския агент (или ако сайтът няма файл robots.txt), той ще продължи да обхожда друга информация на сайта.

 

Допълнителна информация, която трябва да знаете за robots.txt:

  1. За да бъде намерен, файлът robots.txt трябва да бъде поставен в главната директорията на сайта.
  2. В Robots.txt се прави разлика между главни и малки букви: файлът трябва да е с име „robots.txt“ (не Robots.txt, robots.TXT или по друг начин).
  3. Някои роботи могат да игнорират файла, но това се среща често при „лоши“ роботи
  4. Файлът /robots.txt е обществено достъпен: просто добавете /robots.txt до края на коренния домейн, за да видите указанията на този уебсайт.
  5. Обикновено най-добрата практика е да посочите местоположението на всички sitemap.xml-и, свързани с този домейн, в долната част на файла robots.txt. Ето един пример:

Sitemap: https://www.sample.com/sitemap.xml

Технически синтаксис на robots.txt

Синтаксисът може да се смята за „език“ на файловете robots.txt. Има пет общи термин. Те включват:

  1. Потребителски агент ( User-agent): конкретният робот за уеб, към който давате указания за обхождане (обикновено търсачка). Списък на повечето агенти на потребителите можете да намерите тук.
  2. Disallow: Командата, използвана, за да каже на потребителски агент да не обхожда определен URL адрес. За всеки URL адрес е разрешен само един ред „Disallow:“.
  3. Allow (приложимо само за Googlebot): Командата показва на Googlebot, че може да има достъп до страница или подпапка, въпреки че родителската й страница или подпапка не може да бъде разрешена.
  4. Закъснение при обхождането (Crawl-delay): Колко милисекунди трябва да изчака роботът, преди да се зарежда и обхожда съдържанието на страницата. Обърнете внимание, че Googlebot не потвърждава тази команда, но процентът на обхождане може да бъде зададен в Google Search Console.
  5. Карта на сайта (Sitemap): Използва се за извикване на местоположението на която и да е карта на XML, свързана с този URL адрес. Обърнете внимание, че тази команда се поддържа само от Google, Ask, Bing и Yahoo.

И за финал…Защо се нуждаете от robots.txt?

Файловете  контролират достъпа на робота до определени зони на сайта Ви. Макар че това може да бъде много опасно, ако случайно сте забранили на Googlebot да обхожда целия ви сайт, има някои ситуации, при които файлът може да бъде много удобен

  1. Предотвратяване появяването на дублиращо се съдържание в SERPs.
  2. Поддържане на страници с резултати от вътрешни резултати от търсенето да се показват в публичен SERP.
  3. Посочване на местоположението на карта (и) на сайта.
  4. Предотвратяване на търсенето и индексирането на определени файлове на уебсайта Ви (изображения, PDF файлове и т.н.)
  5. Задаване на забавяне на обхождането, за да се предотврати претоварването на сървърите Ви, когато роботите зареждат няколко парчета съдържание наведнъж.