Хочу посоветоваться - какой состав файла robots.txt ОПТИМАЛЕН для нашего (Битрикс) сайта с точки зрения оптимального контента для поисковиков. Мне в наследство (от предыдущего админа сайта) достался такой вот файлик:
А мне вот не ясно, что означают строки: Disallow: /catalog/xxx/section.php?SHOWALL Disallow: /catalog/xxx/section.php?PAGEN Это что-то нужно либо можно удалить из robots.txt ?
Ivan Froloff пишет: А мне вот не ясно, что означают строки: Disallow: /catalog/xxx/section.php?SHOWALL Disallow: /catalog/xxx/section.php?PAGEN
Эти строки говорят поисковику не индексировать данные URL (вместо xxx как понимаю что-то реальное). Индексировать их запретили по простой причине - чтобы поисковик не трогал данные страницы, которые отвечают за вывод всего каталога. Как правило на страницах /catalog/xxx/section.php?SHOWALL очень много контента, но который понятно встречается и на других страницах (при постраничной навигации).
На мой взгляд полезно указать Disallow: *print=Y чтобы не индексировать страницы, подготовленные для печати. Эти страницы по релевантности конкурируют с основным текстом, а там нет навигации.
Fenolkin пишет: в логах лишь эта запись: [Fri Mar 29 11:12:46 2013] [error] [client 199.30.16.57] File does not exist: /home/z/zokzok/public_html/robots.txt
В чём вопрос? Нету у вас роботса вероятно, ну и что дальше?
Хочу поднять тему. Кто нибудь настраивал отдельно robot.txt для google и yandex? Делил их отдельно на User-Agent: Yandex User-Agent: YandexImages и т.д?
Здравствуйте! Информация от гугл вебмастер, простит открыть доступ к файлам css и файлы скриптов, то есть открыть доступ к директории bitrix, возможно ли это?
Цитата
Отчет о заблокированных ресурсах Чтобы правильно обработать и индексировать вашу страницу, роботу Google необходим доступ к ее ресурсам – файлам JavaScript и CSS, изображениям и т. д. Если файл robots.txt сайта не позволяет просканировать все эти ресурсы, возникают ошибки. Из-за этого рейтинг сайта в Google Поиске становится низким.