robots.txt и значението му за търсачките
Публикацията е написана на 03.09.2009 като част от блога Търсене в интернет, участващ в едноименното SEO състезание.
robots.txt е обикновен текстови файл с необикновени функции. Този файл „казва“ на роботите на търсещите машини кои файлове и директории от сайта да бъдат обходени и съответно индексирани и кои не. Чрез няколко прости команди можете можете да оставите админ панела си и други важни файлове от сайта извън полезрението на търсачките. Това обаче не е начин да скриете важна информация. За целта трябва да използвате .htaccess.
Да се върнем обаче на robots.txt файла. Това е най-обикновен текстови файл, който можете да създадете дори с Notepad. Ето на кратко най-важното за този файл:
- Името на файла трябва да е robots.txt, без главни букви или други знаци. Т.е. не може да бъде Robots.txt, ROBOTS.txt или по друг начин.
- Файл се поставя винаги в главната директория на сайта, там където е index-а.
- Всяка команда се изписва на нов ред.
Вече можем да пристъпим и към същината. Записите са два основни типа – такива, каквито указват за кой робот важи командата и самата команда (кое да обходи и кое не). Първо обаченека напишем един коментар. Коментарите започват винаги с # и са само един ред. Ако искате коментара да е на няколко реда, пишете на всеки #. Всеки друг запис се възприема от робота като команда. Ето пример:
Коментари в robots.txt
#Коментар на един ред
#Коментар
#на
#няколко
#реда
Първият запис е от типа User-Agent: име на робота, за който се отнасят долните команди. Така например, ако искаме да кажем само на Google кои страници да не обхожда, пишем името на робота – Googlebot. Но разбира се няма нужда да задаваме поотделно правилата за всяка търсачка. Ако искате те да важът за всички търсачки, просто напишете User-Agent: *.
След този ред следва командата Disallow. Можете да я използвате колкото пъти е нужно, стига всеки път да е на нов ред. Ето на кратно и функциите на Disallow:
- Disallow: filename.html – по този начин казваме на търсачките да не обхождат файла filename.html. Ако файла е в някоя директория се записва по следния начин dirname/filename.html.
- Disallow: /dirname/ – така забраняваме тази директория и всички файлове и папки, които съдържа.
- Disallow: /dir – по този начин забраняваме обхождането на всички директории, чието име започва с dir.
- Disallow: / – забраняваме целия сайт да бъде обхождан.
- Disallow: – разрешаваме на роботите да индексират целия сайт.
- Disallow: *.php – забраняваме да се обхождат php файловете. По този начин можем да забраним всеки формат.
robots.txt е много полезен за една добра SEO оптимизация, но трябва да имаме предвид, че не всички роботи се съобразяват с него, за това не бива да го използваме за скриване на важна информация.
Няма подобни публикации.



Няма коментари.