
За этой простой заметкой стоит одна из самых больших проблем, с которой сталкиваются поисковые системы при индексации сайтов.
Вообще, поиск завоевал свое место на рынке и навсегда изменил принципы поиска информации. Сегодня, если вы дадите кому-то поручение что-то найти или узнать, он честно поищет в Google и Yandex и расскажет о результатах

С одной стороны это хорошо, но в этом и есть трагедия будущего

Но мы сейчас говорим о другом

Поисковые машины обходят все сайты "с улицы" как обычные посетители. Собирают все что "видят", индексируют и делают доступным для поиск. Если на сайте 100 страниц, то вроде и проблем нет. А если на сайте 10 миллионов документов? И информация обновляется несколько раз в минуту? Как повторно определить где что меняется и индексировать только новую информацию?
Это довольно сложно для поисковой машины. Но это становится и проблемой для сайта. Контент вроде есть, а в основных точках поиска информации, в поисковиках, ее нет.
В итоге все более менее крупные сайты хотят и делают свой поиск только с основной целью - искать быстро и давать актуальную информацию. Написал пользователь на форуме новое сообщение - оно должно быть сразу доступно в результатах поиска. Вышла активная новость - она так же должна быть доступна в результатах поиска.
Именно по этой причине нам в своем продукте пришлось сделать модуль Поиска, который немедленно индексирует все содержимое в момент публикации и делает результаты поиска доступными посетителям. Модуль отличный, хорошо работает да еще и ищет с учетом прав доступа.
Для технических специалистов небольшая справка. В нашем продукте есть понятие -
Есть целый
Обычным обработчиком таких событий является наш модуль поиска, который индексирует контент и делает его доступным в результатах поиска.
Но любой разработчик может создать свой модуль поиска или использовать эти события, чтобы наполнять внешний поисковый сервис. Именно так поступила компания Quintura.
Quintura разработала бесплатный модуль, который можно установить в наш продукт и все изменения контента на сайте будут автоматически поступать в их поисковый индекс так же быстро и актуально, как если бы индекс строился в нашей системе.
Вот пример уже работающего проекта NewsWeek на нашем продукте с внешним поиском Quintura

Описание программы и условий сотрудничества с Quintura можно прочитать тут:
Если я правильно понимаю, то Google так же планирует представить некоторый API который смогут использовать разработчики сайтов, чтобы наполнять индекс актуальными данными и обновлять информацию в индексах. Учитывая проблемы поискового спама - видимо такое сотрудничество будет не для всех, а только для отдельных ресурсов и только по договору.
Было бы интересно сделать такие решения в нашем продукте для Yandex и Google. Клиенты бы оценили.
Но вообще мне кажется, что идет новое время, когда Yandex и Google начнут иначе и активнее работать с сайтами, научатся индексировать "глубокий" контент, быстро и актуально добавляя его в поисковые индексы.