Поиск PDF документов
Для индексации и поиска документов PDF нам понадобится утилита pdftotext.
pdftotext - это утилита командной строки, которая преобразует PDF-файлы в обычный текст.
Установка в *nix
В виртуальной машине BitrixVM или окружении BitrixEnv утилита pdftotext уже установлена.
Для проверки, установлена ли утилита, воспользуйтесь командой:
which pdftotext
Если утилита установлена, то в результате выполнения команды отобразится путь к исполняемому файлу. Например: /bin/pdftotext
.
Утилита pdftotext является частью пакета
Poppler
Poppler - библиотека для рендеринга PDF-файлов. В пакет Poppler входит несколько консольных утилит для работы с PDF-файлами, в том числе pdftotext.
Подробнее...
(название пакета зависит от используемого вами дистрибутива, например: poppler-utils (Centos) или poppler-tools (SUSE)). Для получения утилиты вам потребуется установить весь пакет.
Для установки в CentOS 7 выполните:
yum install poppler-utils
Также утилита pdftotext входит в состав инструментов Xpdf. Получить их можно на официальном сайте xpdfreader.com. Но у Xpdf при работе с файлами PDF возможна некорректная индексация части русскоязычных файлов.
Установка в Windows
Утилита pdftotext входит в состав инструментов Xpdf.
- Перейдите на официальный сайт Xpdf xpdfreader.com и скачайте архив Xpdf command line tools для Windows:
- Распакуйте архив в удобную для Вас директорию. Например:
C:\Program Files\Xpdf
; - В папке с требуемой разрядностью (зависит от установленной ОС) находится набор приложений. Среди них нужное нам:
Перечисленных действий достаточно для установки в операционной системе Windows. В настройках модуля Интранет достаточно будет указать путь до этого приложения (C:\Program Files\Xpdf\bin64\pdftotext.exe
) и параметры его запуска.
\doc
лежит документация по утилитам с описанием и доступными параметрами.Настройки поиска PDF файлов
Перейдите в настройки модуля Интранет (Настройки > Настройки продукта > Настройки модулей > Интранет) закладку Поиск.
Добавьте формат PDF, заполнив поля таким образом:
- Расширение: pdf;
- Внешняя команда с нужными опциями. Список всех доступных опций и можно посмотреть в документации к утилите. Рекомендуемые опции:
- -enc - устанавливает кодировку для вывода текста. По умолчанию кодировка Latin1 (встроенная);
- -nopgbrk - не вставлять разрывы между страницами файла.
- для Linux:
pdftotext "#FILE_NAME#" -enc UTF-8 -nopgbrk -
; - для Windows:
"C:\Program Files\Xpdf\bin64\pdftotext.exe" "#FILE_NAME#" -enc UTF-8 -nopgbrk -
.
- Каталог программы: например
/bin/pdftotext
для Linux илиC:\Program Files\Xpdf\bin64\
для Windows.
и Ваше мнение важно для нас