Портал Вебмастеру - всё для работы в интернете

Главная

Статьи

SEO мастеру

Способы заработка

Создание сайта

Раскрутка сайта

Заработок на сайте

Партнерские программы

Платежные системы

Обменные пункты

Контакты

Заработок вебмастеру


Скачать бесплатно:

Скачать учебники

Скачать книги

Скачать скрипты

Скачать программы

Скачать базы

Скачать шаблоны сайта







SEO оптимизация.




Формат и семантика файла robots.txt


После обзора ряда сайтов я пришел к выводу, что более 80% из них пренебрегают использованием файла robots.txt. Что, на мой взгляд, является не самым оптимальным вариантом. Ведь, по своей сути, файл robots.txt - это наиболее важный способ вести успешный диалог с поисковыми роботами.


Несмотря на то, что в общепринятом стандарте в этом файле могут быть только две директивы для поисковых роботов, его использование может принести ощутимую пользу для веб-ресурса. Но для начала - небольшое введение в синтаксис.


Формат и семантика файла robots.txt


Файл должен содержать одну или несколько записей (records), разделенных одной или несколькими пустыми строками (оканчивающимися CR, CR/NL или NL). Каждая запись должна содержать строки (lines) в форме:


"field:[optional_space]value[optional_space]".


Поле field является регистронезависимым.


Комментарии могут быть включены в файл в обычной для UNIX форме: символ # означает начало комментария, конец строки – конец комментария.


Запись должна начинаться с одной или нескольких строк User-Agent, следом должна быть одна или несколько строк Disallow, формат которых приведен ниже. Нераспознанные строки игнорируются.


User-Agent


* значением этого поля должно являться имя поискового робота, которому в этой записи устанавливаются права доступа.
* если в записи указано более одного имени робота, то права доступа распространяются для всех указанных имен.
* заглавные или строчные символы роли не играют
* если в качестве значения этого поля указан символ "*", то заданные в этой записи права доступа распространяются на любых поисковых роботов, запросивших файл /robots.txt


Disallow


* значением этого поля должен являться частичный URL, который не должен индексироваться. Это может быть полный путь или частичный; любой URL, начинающийся с такого пути, не должен индексироваться. Например, Disallow: /help закрывает и /help.html, и /help/index.html, тогда как Disallow: /help/- только /help/index.html.
* если значение Disallow не указано, это означает, что индексируется все дерево каталогов сервера.


Любая запись (record) должна состоять хотя бы из одной строки (line) User-Agent и одной – Disallow


Если файл /robots.txt пуст или не отвечает заданному формату и семантике, или его не существует, любой поисковый робот будет работать по своему алгоритму.


Примеры robots.txt


Возьмем для примера файл с этого сайта. На момент написания статьи он имел вид:


01 User-Agent: *
02 Disallow: /log
03 Disallow: /post/edit/
04 Disallow: /account
05 Disallow: /new-post
06 Host: alexusblog.com

(номера строк в файле отсутствуют и здесь приведены для удобства обращения к ним)


Рассмотрим этот файл по строкам:


строка 01: Поле User-Agent имеет значение * , что говорит о том, что данный блок директив применим для всех роботов;


строка 02: Поле Disallow имеет значение /log , что говорит о том, что для индексации будут запрещены все файлы и каталоги, в URL которых будет встречаться строка /log. Этой строкой я запретил для всех роботов индексацию страниц /login.html и /logout.html - действительно, зачем роботам лазить по страницам авторизации?


строки 03-05 запрещают индексацию для разделов редактирования постов, настроек аккаунта и создания нового поста. Данные разделы доступны только зарегистрированным пользователям и абсолютно не нужны поисковикам.


строка 06: Поле Host имеет значение alexusblog.com. Это поле является дополнительным и работает, насколько мне известно, только для робота Яндекса. Оно говорит боту Яндекса о том, что индексировать документы нужно только на домене alexusblog.com и помогает избежать зеркалирования Вашего ресурса на других доменах. Все остальные роботы игнорируют это поле.


Можно подумать, откуда такая параноя, и почему бы не дать возможности роботам индексировать весь сайт так, как им хочется? Есть несколько причин, почему этого делать не стоит. Первая причина - это трафик. Если Вы - Вася Пупкин, и весь сайт состоит из пары страничек с информацией о себе, Вам не о чем беспокоится. Но если Ваш ресурс имеет динамическую основу и содержит несколько десятков, а то и сотен тысяч уникальных страниц, то есть о чем подумать. Например, запретить к индексации несущественные страницы, такие, как страницы авторизации, добавления комментария (если такой функционал вынесен на отдельныю страницу) и, в идеале, все страницы с неуникальным контентом.


Например, на одном из моих проектов суточный трафик роботов с поисковика google составляет около 250Mb, что за месяц превращается в 7,5Gb - это само по себе не так уж и мало. Запрет к индексации динамической странички с предложением зарегистрироваться, чтобы просмотреть дополнительные свойства данного элемента, привел к сокращению трафика на 50Mb в сутки, что разгрузило канал за месяц аж на 1,5Gb.


Вторая причина кроется несколько глубже. Ни для кого не секрет, что за один заход робот забирает с сайта определенное количество документов. Для сайта Васи П. это не критично. Для многостраничных же ресурсов гораздо выгоднее, чтобы робот индексировал в первую очередь именно страницы с привлекательным контентом, а не с сухими предложениями о регистрации, авторизации и дополнительного финансового вливания для перехода на следующую страницу. Иначе поисковик может бесконечно долго шастать по мусорным страницам, тем самым засыпая самого себя спамом.


Эти две причины являются основными и, опираясь на них, можно сделать простой вывод: чем больше неинтересных страниц Вы запретите к индексации, тем более интересным станет Ваш ресурс в целом и тем меньше Вы заплатите за трафик. Освободившиеся же ресурсы Вы потратите как раз на удовлетворение запросов большего числа пришедших клиентов.


Покупка и продажа трафика.









Наша кнопка
Портал Вебмастеру - всё для работы в интернете



Партнёры



орхидея горшечная купить в Киеве
 • Пошаговый ремонт туалета фото.
http://allworknet.com  Портал Вебмастеру - всё для работы в интернете.
Rambler's Top100 Яндекс цитирования