
За этой простой заметкой стоит одна из самых больших проблем, с которой сталкиваются поисковые системы при индексации сайтов.
Вообще, поиск завоевал свое место на рынке и навсегда изменил принципы поиска информации. Сегодня, если вы дадите кому-то поручение что-то найти или узнать, он честно поищет в Google и Yandex и расскажет о результатах

С одной стороны это хорошо, но в этом и есть трагедия будущего

Но мы сейчас говорим о другом

Поисковые машины обходят все сайты "с улицы" как обычные посетители. Собирают все что "видят", индексируют и делают доступным для поиск. Если на сайте 100 страниц, то вроде и проблем нет. А если на сайте 10 миллионов документов? И информация обновляется несколько раз в минуту? Как повторно определить где что меняется и индексировать только новую информацию?
Это довольно сложно для поисковой машины. Но это становится и проблемой для сайта. Контент вроде есть, а в основных точках поиска информации, в поисковиках, ее нет.
В итоге все более менее крупные сайты хотят и делают свой поиск только с основной целью - искать быстро и давать актуальную информацию. Написал пользователь на форуме новое сообщение - оно должно быть сразу доступно в результатах поиска. Вышла активная новость - она так же должна быть доступна в результатах поиска.
Именно по этой причине нам в своем продукте пришлось сделать модуль Поиска, который немедленно индексирует все содержимое в момент публикации и делает результаты поиска доступными посетителям. Модуль отличный, хорошо работает да еще и ищет с учетом прав доступа.
Для технических специалистов небольшая справка. В нашем продукте есть понятие -
Есть целый
Обычным обработчиком таких событий является наш модуль поиска, который индексирует контент и делает его доступным в результатах поиска.
Но любой разработчик может создать свой модуль поиска или использовать эти события, чтобы наполнять внешний поисковый сервис. Именно так поступила компания Quintura.
Quintura разработала бесплатный модуль, который можно установить в наш продукт и все изменения контента на сайте будут автоматически поступать в их поисковый индекс так же быстро и актуально, как если бы индекс строился в нашей системе.
Вот пример уже работающего проекта NewsWeek на нашем продукте с внешним поиском Quintura

Описание программы и условий сотрудничества с Quintura можно прочитать тут:
Если я правильно понимаю, то Google так же планирует представить некоторый API который смогут использовать разработчики сайтов, чтобы наполнять индекс актуальными данными и обновлять информацию в индексах. Учитывая проблемы поискового спама - видимо такое сотрудничество будет не для всех, а только для отдельных ресурсов и только по договору.
Было бы интересно сделать такие решения в нашем продукте для Yandex и Google. Клиенты бы оценили.
Но вообще мне кажется, что идет новое время, когда Yandex и Google начнут иначе и активнее работать с сайтами, научатся индексировать "глубокий" контент, быстро и актуально добавляя его в поисковые индексы.
Apple вот все подряд, что не придумает тут же патентует, а потом зарабатывает уйму денег только на патентах.
У нас же в стране по-моему еще не научились делать деньги только на идее, вовремя получив патент, как это уже давно делают в америке.
Я считаю, что с точки зрения Гугла идти на разработку каких-то индивидуальных API можно только в исключительных случаях (как, например, twitter). Решений на каждый случай тут не придумаешь, поэтому с их точки зрения логичнее продолжать тянуть обычные html-страницы. А вот какие страницы "тягать" - это уже дело вебмастеров. Они заинтересованы в том, чтобы запретить к индексации все лишнее (типа результатов поиска) и подпихнуть в sitemap все обновления.
Ребята оказывается
Поисковый робот, который обходит форумы и блоги пытается найти специальный XML-фид для более удобной и быстрой индексации. Т.е. это не обычный RSS, а специально размеченный, который и описывет структуру постов и комментариев к ним. И листая этот фид яндекс прочитает весь форум или ту часть что отдаётся для обычных посетителей.
# Да, FriendFeed оказывается поддерживает hubbub, и реализация заняла у них что-то типа одного дня.
Поисковые машины обходят все сайты "с улицы" как обычные посетители. Собирают все что "видят", индексируют и делают доступным для поиск. Если на сайте 100 страниц, то вроде и проблем нет. А если на сайте 10 миллионов документов? И информация обновляется несколько раз в минуту? Как повторно определить где что меняется и индексировать только новую информацию?
Для этого есть sitemap в котором указывается адрес страницы и дата изменения
доступ разрешаем гигантам таким яндекс гугл ... - остальных отсеиваем nginxксом
В итоге все более менее крупные сайты хотят и делают свой поиск только с основной целью - искать быстро и давать актуальную информацию. Написал пользователь на форуме новое сообщение - оно должно быть сразу доступно в результатах поиска. Вышла активная новость - она так же должна быть доступна в результатах поиска.
Именно по этой причине нам в своем продукте пришлось сделать модуль Поиска, который немедленно индексирует все содержимое в момент публикации и делает результаты поиска доступными посетителям. Модуль отличный, хорошо работает да еще и ищет с учетом прав доступа.
Сразу вопрос - доступна в каких результатах поиска ?
1. на ya.ru или google.com ?
модуль поиска битрикса не публикует их в яндексе
эх пингаторы .... пингаторы .... пингаторы ....
2. на сайте через поисковую форуму яндекса/гугла
для этого есть платные услуги Google Site Search у яндекса нечто подобное тоже возможно появиться
3. через поиск битрикса ?
будет новость на сайте но не будет в поисковых системах )
эх поиск поиск )))
Авто дополнение строки поиска а-ля Google - так и не реализовано
Сфинкс - все понятно
Поикс по одной букве "а" - у нас много ресурсов
Порой не все инфоблоки нужно индексировать - вырубая индексацию в одном - мы также вырубаем создание для него sitemapа - и где же после этого seo гармония ?
==================================
Пару ссылок по теме
Обратил внимание, что изменения первой страницы на Грек ру на Гугл отражаются на след день.
И он логично выдает результат по канонам поисковой оптимизации.
А вот с Яндексом же большие проблемы, обновляется раз в две недели и он с конца января три слова:
Греция
Греции
греция
воспринимает как совершенно разные слова.