robots.txt и значението му за търсачките

   Публикацията е написана на 03.09.2009 като част от блога Търсене в интернет, участващ в едноименното SEO състезание.

   robots.txt е обикновен текстови файл с необикновени функции. Този файл „казва“ на роботите на търсещите машини кои файлове и директории от сайта да бъдат обходени и съответно индексирани и кои не. Чрез няколко прости команди можете можете да оставите админ панела си и други важни файлове от сайта извън полезрението на търсачките. Това обаче не е начин да скриете важна информация. За целта трябва да използвате .htaccess.
   Да се върнем обаче на robots.txt файла. Това е най-обикновен текстови файл, който можете да създадете дори с Notepad. Ето на кратко най-важното за този файл:

  • Името на файла трябва да е robots.txt, без главни букви или други знаци. Т.е. не може да бъде Robots.txt, ROBOTS.txt или по друг начин.
  • Файл се поставя винаги в главната директория на сайта, там където е index-а.
  • Всяка команда се изписва на нов ред.

   Вече можем да пристъпим и към същината. Записите са два основни типа – такива, каквито указват за кой робот важи командата и самата команда (кое да обходи и кое не). Първо обаченека напишем един коментар. Коментарите започват винаги с # и са само един ред. Ако искате коментара да е на няколко реда, пишете на всеки #. Всеки друг запис се възприема от робота като команда. Ето пример:

Коментари в robots.txt
#Коментар на един ред

#Коментар
#на
#няколко
#реда

   Първият запис е от типа User-Agent: име на робота, за който се отнасят долните команди. Така например, ако искаме да кажем само на Google кои страници да не обхожда, пишем името на робота – Googlebot. Но разбира се няма нужда да задаваме поотделно правилата за всяка търсачка. Ако искате те да важът за всички търсачки, просто напишете User-Agent: *.
   След този ред следва командата Disallow. Можете да я използвате колкото пъти е нужно, стига всеки път да е на нов ред. Ето на кратно и функциите на Disallow:

  • Disallow: filename.html – по този начин казваме на търсачките да не обхождат файла filename.html. Ако файла е в някоя директория се записва по следния начин dirname/filename.html.
  • Disallow: /dirname/ – така забраняваме тази директория и всички файлове и папки, които съдържа.
  • Disallow: /dir – по този начин забраняваме обхождането на всички директории, чието име започва с dir.
  • Disallow: / – забраняваме целия сайт да бъде обхождан.
  • Disallow: – разрешаваме на роботите да индексират целия сайт.
  • Disallow: *.php – забраняваме да се обхождат php файловете. По този начин можем да забраним всеки формат.

   robots.txt е много полезен за една добра SEO оптимизация, но трябва да имаме предвид, че не всички роботи се съобразяват с него, за това не бива да го използваме за скриване на важна информация.

Няма подобни публикации.

  1. Няма коментари.

  1. Няма trackbacks.