Разработчикам

Оптимальный robots.txt

RSS

Оптимальный robots.txt

Пользователь 20756

Заглянувший

Сообщений: 31 Баллов: 2 Регистрация: 13.02.2008

15.02.2008 10:51:48

Здравствуйте!

Хочу посоветоваться - какой состав файла robots.txt ОПТИМАЛЕН для нашего (Битрикс) сайта с точки зрения оптимального контента для поисковиков. Мне в наследство (от предыдущего админа сайта) достался такой вот файлик:

User-agent: *
Disallow: /search/
Disallow: /bitrix/
Disallow: /admin/
Disallow: /upload/
Disallow: /img/
Disallow: /catalog/xxx/section.php?SHOWALL
Disallow: /catalog/xxx/section.php?PAGEN
Host: www.xxx-shop.ru

Все ли здесь верно, или есть смысл что-то подправить?

Sergey Rizhikov

Администратор

Сообщений: 2791 Баллов: 432 Регистрация: 09.01.2003

rsv

15.02.2008 11:00:10

Я на днях тоже озадачился вопросом индексации.
Пока мы у себя поставили вот такой файл с учетом нашей структуры:

User-agent: *
Disallow: /bitrix/admin/
Disallow: /admin/
Disallow: /bitrix/
Disallow: /about/pics/
Disallow: /blog/user/
Disallow: /blog/friends/
Disallow: /sitemanager/projects/
Disallow: /partners/list/
Disallow: /support/forum/topic/new/
Disallow: /support/forum/users/
Disallow: /support/forum/user/
Disallow: /support/forum/search/
Disallow: /support/forum/rules/
Disallow: /support/forum/help/
Disallow: /support/forum/pm/
Disallow: /support/forum/subscribe/
Host: www.1c-bitrix.ru

Но есть еще мысли по доработке ряда шаблонов, чтобы исключить пустные дубликаты страниц. Думаю, мы скоро займемся этой темой активно.

Пользователь 20756 Заглянувший Сообщений: 31 Баллов: 2 Регистрация: 13.02.2008	#3 18.02.2008 09:41:54 А мне вот не ясно, что означают строки: Disallow: /catalog/xxx/section.php?SHOWALL Disallow: /catalog/xxx/section.php?PAGEN Это что-то нужно либо можно удалить из robots.txt ?

Пользователь 11948

Гуру

Сообщений: 8511 Баллов: 1056 Регистрация: 17.05.2007

18.02.2008 09:51:46

Цитата
Ivan Froloff пишет: А мне вот не ясно, что означают строки: Disallow: /catalog/xxx/section.php?SHOWALL Disallow: /catalog/xxx/section.php?PAGEN

Эти строки говорят поисковику не индексировать данные URL (вместо xxx как понимаю что-то реальное). Индексировать их запретили по простой причине - чтобы поисковик не трогал данные страницы, которые отвечают за вывод всего каталога. Как правило на страницах /catalog/xxx/section.php?SHOWALL очень много контента, но который понятно встречается и на других страницах (при постраничной навигации).

Надеюсь понятно изъяснился

https://d-it.ru

Я инженер, который решает задачи, а не пишет на языке. Архитектура, разработка, DevOps — подбираю инструменты под цель, строю решения, которые работают в проде и масштабируются без боли.

Пользователь 1655 Эксперт Сообщений: 1036 Баллов: 129 Регистрация: 06.05.2005	#5 22.02.2008 22:54:56 Как запретить вообще ВСЕМ роботам индексировать сайт ? Что бы онк ним никогда и нирикаких условиях непопал. User-agent: * Disallow: / Host: www.nosite.ru Так ? Я зла не помню, но и добро не забываю. http://www.HelpIT.ru

Пользователь 1966 Постоянный посетитель Сообщений: 232 Баллов: 18 Регистрация: 06.07.2005	#6 23.02.2008 19:14:42 Андрей Михайлов Да, так. Кстати, а вот Disallow: /bitrix/admin/ и Disallow: /bitrix/ имеет смысл писать оба? Или достаточно Disallow: /bitrix/ ?

Пользователь 31645

Постоянный посетитель

Сообщений: 62 Баллов: 10 Регистрация: 21.10.2008

04.09.2009 09:58:58

На мой взгляд полезно указать
Disallow: *print=Y
чтобы не индексировать страницы, подготовленные для печати. Эти страницы по релевантности конкурируют с основным текстом, а там нет навигации.

Ну и, конечно, нужен
Sitemap: http://www.mysite.ru/sitemap_index.xml
если сформирован sitemap_index.xml

Пользователь 59359 Заглянувший Сообщений: 3 Регистрация: 07.03.2010	#8 21.03.2010 23:11:36 У меня вопрос Почему документы /index.php запрещены в файле robots.txt ???

Пользователь 12159 Эксперт Сообщений: 1006 Баллов: 124 Регистрация: 24.05.2007	#9 21.03.2010 23:29:55 Где они запрещены? Десантура.ру - о десанте без границ

Пользователь 59359

Заглянувший

Сообщений: 3 Регистрация: 07.03.2010

#10

21.03.2010 23:46:04

Цитата
Des пишет: Где они запрещены?

Disallow: /*index.php$
вот по умолчанию стоит в роботе

Пользователь 14571

Эксперт

Сообщений: 796 Баллов: 105 Регистрация: 10.08.2007

#11

22.03.2010 02:00:50

Цитата
Сергей Троянский пишет: Disallow: /*index.php$ вот по умолчанию стоит в роботе

Чтобы не дублировались одиннаковые индексные страницы.
Например,
/forum/ и /forum/index.php

мои проекты: https://blog.sokov.org/category/dhynedhdhudhnn/ | меня рекомендуют: https://blog.sokov.org/recommendations/ | обо мне: https://spb.hh.ru/resume/9f303161ff02e561e20039ed1f654846726333 | 1 час работы - 1400 руб.

Пользователь 59359

Заглянувший

Сообщений: 3 Регистрация: 07.03.2010

#12

22.03.2010 09:54:27

Цитата

Виталий Соков пишет:

Цитата
Сергей Троянский пишет: Disallow: /*index.php$ вот по умолчанию стоит в роботе

Чтобы не дублировались одиннаковые индексные страницы.
Например,
/forum/ и /forum/index.php

Спасибо за ответ)

Пользователь 145159 Заглянувший Сообщений: 10 Регистрация: 09.10.2012	#13 29.03.2013 11:23:19 в логах лишь эта запись: [Fri Mar 29 11:12:46 2013] [error] [client 199.30.16.57] File does not exist: /home/z/zokzok/public_html/robots.txt

Пользователь 156853

Заглянувший

Сообщений: 42 Баллов: 2 Регистрация: 21.12.2012

#14

29.03.2013 11:24:58

Цитата
Fenolkin пишет: в логах лишь эта запись: [Fri Mar 29 11:12:46 2013] [error] [client 199.30.16.57] File does not exist: /home/z/zokzok/public_html/robots.txt

В чём вопрос?
Нету у вас роботса вероятно, ну и что дальше?

Пользователь 19040 Постоянный посетитель Сообщений: 264 Баллов: 21 Регистрация: 21.12.2007	#15 29.03.2013 11:56:58 Они google.translate пользоваться не умеют:)

Пользователь 173519

Эксперт

Сообщений: 493 Баллов: 54 Регистрация: 30.03.2013

#16

14.10.2013 18:41:01

Цитата
Андрей Михайлов пишет: Как запретить вообще ВСЕМ роботам индексировать сайт ? Что бы онк ним никогда и нирикаких условиях непопал. User-agent: * Disallow: / Host: www.nosite.ru

а по-моему так: Disallow: /* хотя возможно, что и так и так...

Разработка и поддержка интернет магазинов на Битрикс www.fl.ru/users/electroid/, интеграция битрикс и 1С.

Пользователь 34206

Посетитель

Сообщений: 50 Баллов: 8 Регистрация: 05.12.2008

#17

28.05.2014 13:50:23

как вариант:
User-agent:*
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*?action=
Disallow: /*action=ADD_TO_COMPARE_LIST
Disallow: /*action=DELETE_FROM_COMPARE_LIST
Disallow: /*action=ADD2BASKET
Disallow: /*action=BUY
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*?COURSE_ID=
Disallow: /*?PAGEN
Disallow: /*PAGEN_1=
Disallow: /*PAGEN_2=
Disallow: /*PAGEN_3=
Disallow: /*PAGEN_4=
Disallow: /*PAGEN_5=
Disallow: /*PAGEN_6=
Disallow: /*PAGEN_7=
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*PAGE_NAME=search
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*SHOWALL
Disallow: /*show_all=
Disallow: /*building_directory/$
Disallow: /*work/$
Disallow: /*yslugi_sanexnika/$
Disallow: /*modern-repair/$
Disallow: /*school_remo/$
Host: calion-spb.ru
Sitemap: http://calion-spb.ru/sitemap.xml

Пользователь 160866

Заглянувший

Сообщений: 10 Регистрация: 25.07.2013

#18

22.05.2016 01:31:13

Запретим индексацию страниц со всеми динамическими параметрами:

Disallow: /*?*

или

укажем динамические параметры явно, которые не хотим видеть в индексе:

Clean-param: print&action&SHOWALL&PAGEN_1&PAGE_NAME&forgot_password&и_так_далее / #для всех страниц

Таким образом файл robot.txt заметно "похудеет" после удаления значений каждого параметра.

Пользователь 256622 Посетитель Сообщений: 98 Баллов: 7 Регистрация: 25.04.2014	#19 02.06.2016 08:06:15 Хочу поднять тему. Кто нибудь настраивал отдельно robot.txt для google и yandex? Делил их отдельно на User-Agent: Yandex User-Agent: YandexImages и т.д?

Пользователь 256622 Посетитель Сообщений: 98 Баллов: 7 Регистрация: 25.04.2014	#20 02.06.2016 08:34:20 если вообще смысл это делать или оставить только стандарный?

Пользователь 256622 Посетитель Сообщений: 98 Баллов: 7 Регистрация: 25.04.2014	#21 06.06.2016 06:04:54 http://prntscr.com/bcuo5f что то не понятно, не ужели ни кто не пользовался данными вкладками? Зачем тогда вообще битрикс их делал?

Пользователь 257917

Заглянувший

Сообщений: 3 Регистрация: 11.11.2014

#22

01.07.2016 21:10:55

Здравствуйте!
Информация от гугл вебмастер, простит открыть доступ к файлам css и файлы скриптов, то есть открыть доступ к директории bitrix, возможно ли это?

Цитата

Отчет о заблокированных ресурсах
Чтобы правильно обработать и индексировать вашу страницу, роботу Google необходим доступ к ее ресурсам – файлам JavaScript и CSS, изображениям и т. д.
Если файл robots.txt сайта не позволяет просканировать все эти ресурсы, возникают ошибки. Из-за этого рейтинг сайта в Google Поиске становится низким.

Пользователь 172310 Эксперт Сообщений: 1146 Баллов: 103 Регистрация: 16.03.2013	#23 04.07.2016 10:43:36 http://dev.1c-bitrix.ru/community/forums/messages/forum6/topic73736/message411279/#message411279 Резюме

Пользователь 257917

Заглянувший

Сообщений: 3 Регистрация: 11.11.2014

#24

04.07.2016 14:33:50

Цитата
Dmitry Sirotin написал: http://dev.1c-bitrix.ru/community/forums/messages/forum6/topic73736/message411279 /#message411279

Спасибо.

Пользователь 371080 Заглянувший Сообщений: 32 Баллов: 1 Регистрация: 16.08.2015	#25 06.01.2017 19:19:56 Максимальный заперт динамических страниц: Disallow: /? Disallow: /?* Disallow: /?

Оптимальный robots.txt

Продукты

Управление сайтом

Битрикс24

Интернет-магазин + CRM

Решения

Для интернет-магазинов

Каталог готовых решений

Внедрение

Выбрать партнера

Проверить партнера

Стать партнером