Поиск PDF документов
Для индексации и поиска документов PDF нам понадобится утилита pdftotext.
pdftotext - это утилита командной строки, которая преобразует PDF-файлы в обычный текст.
Установка в *nix
В виртуальной машине BitrixVM или окружении BitrixEnv утилита pdftotext уже установлена.
Для проверки, установлена ли утилита, воспользуйтесь командой:
which pdftotext
Если утилита установлена, то в результате выполнения команды отобразится путь к исполняемому файлу. Например: /bin/pdftotext.
Утилита pdftotext является частью пакета
Poppler
Poppler - библиотека для рендеринга PDF-файлов. В пакет Poppler входит несколько консольных утилит для работы с PDF-файлами, в том числе pdftotext.
Подробнее...
(название пакета зависит от используемого вами дистрибутива, например: poppler-utils (Centos) или poppler-tools (SUSE)). Для получения утилиты вам потребуется установить весь пакет.
Для установки в CentOS 7 выполните:
yum install poppler-utils
Также утилита pdftotext входит в состав инструментов Xpdf. Получить их можно на официальном сайте xpdfreader.com. Но у Xpdf при работе с файлами PDF возможна некорректная индексация части русскоязычных файлов.
Установка в Windows
Утилита pdftotext входит в состав инструментов Xpdf.
- Перейдите на официальный сайт Xpdf xpdfreader.com и скачайте архив Xpdf command line tools для Windows:

- Распакуйте архив в удобную для Вас директорию. Например:
C:\Program Files\Xpdf; - В папке с требуемой разрядностью (зависит от установленной ОС) находится набор приложений. Среди них нужное нам:

Перечисленных действий достаточно для установки в операционной системе Windows. В настройках модуля Интранет достаточно будет указать путь до этого приложения (C:\Program Files\Xpdf\bin64\pdftotext.exe) и параметры его запуска.
\doc лежит документация по утилитам с описанием и доступными параметрами.Настройки поиска PDF файлов
Перейдите в настройки модуля Интранет (Настройки > Настройки продукта > Настройки модулей > Интранет) закладку Поиск.
Добавьте формат PDF, заполнив поля таким образом:
- Расширение: pdf;
- Внешняя команда с нужными опциями. Список всех доступных опций и можно посмотреть в документации к утилите. Рекомендуемые опции:
- -enc - устанавливает кодировку для вывода текста. По умолчанию кодировка Latin1 (встроенная);
- -nopgbrk - не вставлять разрывы между страницами файла.
- для Linux:
pdftotext "#FILE_NAME#" -enc UTF-8 -nopgbrk -; - для Windows:
"C:\Program Files\Xpdf\bin64\pdftotext.exe" "#FILE_NAME#" -enc UTF-8 -nopgbrk -.
- Каталог программы: например
/bin/pdftotextдля Linux илиC:\Program Files\Xpdf\bin64\для Windows.

и Ваше мнение важно для нас