Поиск PDF документов

Урок 198 из 838
Автор: Марина Павлова
Сложность урока:
2 уровень - несложные понятия и действия, но не расслабляйтесь.
2 из 5
Дата изменения: 02.05.2021
Просмотров: 341
Ограничения по редакциям: Ограничений нет

Для индексации и поиска документов PDF нам понадобится утилита pdftotext.
pdftotext - это утилита командной строки, которая преобразует PDF-файлы в обычный текст.

  Установка в *nix

В виртуальной машине BitrixVM или окружении BitrixEnv утилита pdftotext уже установлена.

Для проверки, установлена ли утилита, воспользуйтесь командой:

which pdftotext

Если утилита установлена, то в результате выполнения команды отобразится путь к исполняемому файлу. Например: /bin/pdftotext.

Утилита pdftotext является частью пакета Poppler Poppler - библиотека для рендеринга PDF-файлов. В пакет Poppler входит несколько консольных утилит для работы с PDF-файлами, в том числе pdftotext.

Подробнее...
(название пакета зависит от используемого вами дистрибутива, например: poppler-utils (Centos) или poppler-tools (SUSE)). Для получения утилиты вам потребуется установить весь пакет.

Для установки в CentOS 7 выполните:

yum install poppler-utils

Также утилита pdftotext входит в состав инструментов Xpdf. Получить их можно на официальном сайте xpdfreader.com. Но у Xpdf при работе с файлами PDF возможна некорректная индексация части русскоязычных файлов.

  Установка в Windows

Утилита pdftotext входит в состав инструментов Xpdf.

  • Перейдите на официальный сайт Xpdf xpdfreader.com и скачайте архив Xpdf command line tools для Windows:

  • Распакуйте архив в удобную для Вас директорию. Например: C:\Program Files\Xpdf;
  • В папке с требуемой разрядностью (зависит от установленной ОС) находится набор приложений. Среди них нужное нам:

Перечисленных действий достаточно для установки в операционной системе Windows. В настройках модуля Интранет достаточно будет указать путь до этого приложения (C:\Program Files\Xpdf\bin64\pdftotext.exe) и параметры его запуска.

Примечание: В скачанном архиве в папке \doc лежит документация по утилитам с описанием и доступными параметрами.

  Настройки поиска PDF файлов

Перейдите в настройки модуля Интранет (Настройки > Настройки продукта > Настройки модулей > Интранет) закладку Поиск.

Добавьте формат PDF, заполнив поля таким образом:

  • Расширение: pdf;
  • Внешняя команда с нужными опциями. Список всех доступных опций и можно посмотреть в документации к утилите. Рекомендуемые опции:
    • -enc - устанавливает кодировку для вывода текста. По умолчанию кодировка Latin1 (встроенная);
    • -nopgbrk - не вставлять разрывы между страницами файла.

    В итоговом варианте заполнения поля Внешняя команда имеет, например, такой вид:
    • для Linux: pdftotext "#FILE_NAME#" -enc UTF-8 -nopgbrk - ;
    • для Windows: "C:\Program Files\Xpdf\bin64\pdftotext.exe" "#FILE_NAME#" -enc UTF-8 -nopgbrk - .

  • Каталог программы: например /bin/pdftotext для Linux или C:\Program Files\Xpdf\bin64\ для Windows.



Курсы разработаны в компании «1С-Битрикс»
Спасибо, мы рады что смогли помочь Вам. Ниже Вы можете оставить свой отзыв или пожелание :)
Нам жаль это слышать… Но мы постараемся быть лучше! Поясните, пожалуйста, свой выбор:

Мы благодарны Вам за помощь в улучшении документации.

Мы стараемся сделать документацию понятнее и доступнее,
и Ваше мнение важно для нас