Здравствуйте, столкнулся с такой проблемой- решили продвигать старый интернет магазин который давно забросили, просканировали сайт в сервисе seoto.me обнаружили кучу дублей контента и тегов. На сайте небыл настроен файл robots.txt , воспользовался "стартовым набором" + свои добавления чтоб скрыть дубли, получилось вот так:
Очень хотелось бы узнать, есть какие нибудь замечания от знающих людей?... может что то надо убрать или наоборот добавить. от себя к стартовому набору добавили это: Disallow: /personal/ Disallow: /search/ Disallow: /*COUNT= Disallow: /*SECTION_CODE= Disallow: /auth/ Disallow: /*?PAGEN Disallow: /*PAGEN_1= Disallow: /*PAGEN_2= Disallow: /*PAGEN_3= Disallow: /*PAGEN_4= Disallow: /*PAGEN_5= Disallow: /*PAGEN_6= Disallow: /*PAGEN_7=
еще старом файле были таки команды: Disallow: /*by= Disallow: /*order= Disallow: /css/ Disallow: /include/ стоит ли их оставить?
Зависит от сайта и того, какие URL нужно закрыть для поисковиков. Лучше, наверное, разместить более полный набор правил, чем небоходимо: с расчетом на будущее, и т.п. В целом эти правила - стандартные (примерно как в типовом решении) для битрикса. В слове Sitemap у вас очепятка.
Нет, а почему могло бы навредить? если папок /css/ и /include/ нет вообще, то можно удалить эти две строки. by и order если точно знаете что нигде не используются - смело удаляйте. URL через SECTION_ID и SECTION_CODE сейчас тоже большая редкость, поэтому таких ссылок наверное нет у вас, и тогда тоже можно удалять.
Денис Сон, в том то и дело что Disallow: /*SECTION_CODE= Disallow: /*by= Disallow: /*order= я закрыл потому, что они создают много дублей мета тегов типа title и H1 и текстовая информация тоже дублируется. И теперь интересно не навредит ли это в общем при продвижении.