Модуль «Парсер контента» с версии 4.0.0. "научился" парсить каталоги, что значительно расширяет его функциональность. Но и настройка самого парсера в режиме каталога стала на первый взгляд сложнее. Но это лишь на первый взгляд. Данная инструкция разрушит все ваши сложности и возникшие вопросы. И так. Поехали!
Внимание!!! Чтобы работа с парсером была легкой и простой, необходимо знать азы верстки и css, а именно селектора: классы, идентификаторы, атрибуты. Так же будут полезны базовые знания работы с JQuery, например: .image img:eq(0). Без этих базовых знаний нет смысла читать далее! Если вы еще не знаете таких понятий, то с ними можно легко ознакомиться по ссылке: http://habrahabr.ru/post/123949/
Парсер в режиме каталога состоит из девяти вкладок при установленном модуле Торговый Каталог, в ином случае - из восьми, т.к. вкладка Торговый каталог отсутствует.
Теперь рассмотрим каждую вкладку подробнее.
Основная и вкладка по-умолчанию - Парсер:
Тип парсера – соответственно и есть тип парсера. На данный момент это rss, page, catalog. Нас же интересует catalog.
Внимание! Если не использовать вкладку Торговый каталог, то парсер будет просто работать в расширенном режиме парсинга без создания товаров. Удобно для парсинга сложных новостных страниц или статей.
Режим парсера – режим, в котором работает парсер. Существует два режима работы: debug и work. По умолчанию для отладки используется debug режим. Именно в этом режиме необходимо настраивать парсер. В дебаг режиме парсится три страницы и по три товара с каждой страницы. В рабочий режим work парсер необходимо переводить, если он полностью настроен и отлажен. Стоит отметить, что, если вы используете модуль «Парсер контента» в триал версии, то парсер работает только в дебаг режиме. URL раздела каталога – страница, содержащая непосредственно товары. ID инфоблока-каталога – инфоблок, в который будет осуществляться загрузка товаров.
ID раздела – раздел инфоблока, в который будет осуществляться загрузка товаров.
Количество товаров, выгружаемых за один шаг парсера – количество товаров, который парсер обрабатывает за один шаг.
Шаг парсера – понятие, которое имеет место при ручном режиме запуска парсера. В этом случае каждый шаг происходит отключение и новое подключение к каналу выгрузки. Варьируйте это значение в зависимости от возможностей вашего хостинга. Если парсер работает от агента(крон), то шаг парсера игнорируется и выгрузка осуществляется одним запросом.
Активен, Сортировка, Название, Время последнего запуска, Кодировка – интуитивно понятные поля и в комментариях не нуждаются. Вкладка Постраничная навигация:
Селектор пункта навигации – селектор пункта навигации, содержащий ссылки на страницы. Как правило это элемент ссылки a. Указывается относительно предыдущего параметра.
Удалить элементы навигации – список элементов, которые необходимо удалить из навигации. Например, иногда нужно удалить лишние элементы из навигации, такие как След, Предыд, Показать все и подобное. Указывается относительно селектора навигации. На картинке ниже подробная схема селекторов Пагинации.
Стоить отметить, что если Селектор навигации не указан, то парсинг осуществляется только по одной странице. Вкладка превью:
Селектор товара на странице каталога – селектор контейнера товара на странице списка товаров.
Селектор ссылки товара – как правило, обычная ссылка a, содержащая атрибут href. Если пусто, то используется a: eq(0), то есть первая ссылка. Указывается относительно предыдущего параметра.
Селектор названия товара – селектор, в котором содержится название товара. Если пустое, то равно предыдущему параметру.
Селектор превью описания – селектор, в котором содержится превью описание товара.
Селектор цены – селектор, в котором содержится цена товара.
Удалять элементы – элементы, которые необходимо удалить из описания. Указываются относительно селектора товара на странице каталога.
Удалять атрибуты элементов – атрибуты элементов, которые необходимо удалить. Пример написания: a[ href], a[ rel]. Селектор-атрибут превью картинки – указывается селектор и атрибут превью картинки. Пример: img[src], a[href]
Вкладка Детально:
Поля аналогичны полям во вкладке Детально. Поэтому подробно рассматривать не будем. Вкладка Свойства:
Свойство доп. картинок – если есть доп. картинки, то необходимо указать поля, в которые будет осуществляться выгрузка картинок. Селектор-атрибут перечисления доп. картинок – указывается селектор и атрибут доп. картинок. Пример .images [img]undefined[/img][ src]. Указывается относительно селектора товара на детальной странице.
Парсинг свойств по селектору – производится парсинг свойств по конкретному селектору. Поле используется, если свойства имеют свои селектора.
Удалять символы – удаляются символы из свойств, описанных выше. Как правило, это двоеточия, запятые, многоточия и подобное.
Парсинг свойств по названию – требует более детального описания. Парсинг свойств в этом случае осуществляется по селектору списка свойств и по названию свойства.
Селектор перечисления свойств – общий селектор свойств в списке.
Удалять символы – удалять лишние символы, такие как: запятые, двоеточия, многоточия и подобное.
Еще необходимо указать названия свойств. Именно по этому названию и общему селектору будет производиться парсинг свойств.
Хочу обратить внимание, что на данный момент возможен парсинг свойств только типов: строка, число, список, привязка к элементам. Множественность не поддерживается.
Вкладка Торговый каталог(если установлен модуль Торговый каталог):
Тип цены, Ставка НДС, Включать НДС в цену, Валюта, Единица измерения, коэффициент единицы измерения – эти поля интуитивно понятны и не требует дополнительного разъяснения.
Работа с ценами – предоставляется возможность работы с ценами: конвертация, изменение цены.
Конвертировать в валюту – в какую валюту необходимо конвертировать цену.
Изменить цену – возможные значения: Не изменять, Увеличить, уменьшить.
Условие изменения цены – обозначается условие, при выполнении которого будет изменена цена. Словесный пример: Увеличить цену, если цена выше 600. 600 – цена в исходной валюте.
Тип изменения – возможные варианты: Проценты и Абсолютная величина. То есть изменения цены будет в процентном соотношении или в абсолютной величине.
Величина изменения – величина изменения цены. Указывается в зависимости от предыдущего поля.
Парсинг размеров по селектору – логика аналогична логике парсинга свойств из вкладки Свойства.
Парсинг размеров по названию – логика аналогична парсингу свойств из вкладки Свойства.
Вкладка Дополнительные настройки:
Парсить при возникновении 404 ошибки – при парсинге страниц в случае возникновения 404 ошибки продолжать парсинг. Пункт актуален из-за СЕО заморочек.
Запускать по агенту – запуск парсера по агенту. Рекомендуется агенты запускать из под крона.
Время задержки(сек) – время между запросами к страницам каталога. Иногда сайты используют контроль активности за единицу времени. Этот пункт как раз позволяет обойти вышеуказанный контроль.
Прокси-сервер – адрес прокси-сервера, через который будет осуществляться парсинг. Применяется для сохранения анонимности. Остальные поля интуитивно понятны и не требуют разъяснения.
Вкладка Обновление /Уникальность:
Обновлять товары – чекбокс, который включает и выключает обновление товаров.
Проверка уникальности – изначально для уникализации использует поле XML_ID, в которое заносит md5 от названия товара и урла страницы товара. Если вы не хотите заполнять и перетирать поле XML_ID, то необходимо переопределить уникализацию. Например, вы можете уникализировать по названию или свойству(Артикул), либо по тому и другому по логике И.
Обновлять поля – позволяет выбрать поля, которые необходимо обновлять. Так же существуют условия обновления полей. К примеру, обновлять Детальное описание, если оно пустое.
Вкладка Авторизация: Производить авторизацию на стороннем сайте - если необходимо парсить сайт из под авторизованного пользователя, то необходимо отметить это поле.
URL авторизационной страницы - если авторизацию происходит на отдельной странице, то необходимо заполнить данное поле. По умолчанию идет страницы раздела, которые собираемся парсить.
Селектор формы авторизации - селектор формы авторизации. Пример на картинке ниже:
Логин - логин на стороннем сайте. Пароль - пароль на стороннем сайте. Проверить авторизацию - позволяет проверить авторизацию. Если вы уверены, что доступы и все параметры к стороннему сайту верны, а авторизация не проходит, то обратитесь в службу поддержки компании «Сотбит».
Вкладка Логи:
На данном этапе осуществляется простое логирование ошибок в файл последней выгрузки.
Данная инструкция будет поддерживаться в актуальном состоянии и обновляться по мере развития модуля «Парсер контента».
Добрый день. Есть ли возможность парсить не только значения свойств, но и сами свойства? В настройках парсера в свойствах только выбор из уже созданных свойств.
Еще один вопрос: в настройках парсера вместо русского текста абракадабра, например в "парсинге свойств из деталки по названию", невозможно им воспользоваться, в других строчках тоже, но там не критично, т.к. теги на английском
Группы на сайте создаются не только сотрудниками «1С-Битрикс», но и партнерами компании. Поэтому мнения участников групп могут не совпадать с позицией компании «1С-Битрикс».