Проверка текстового содержимого PDF-файлов

Question

На моем веб-сайте есть хранилище файлов, которое включает в себя текстовый поиск - он ищет не только заголовки файлов, но и их свойства и содержимое.

Проблема в том, что некоторые файлы не были сохранены правильно и возвращают действительно странные результаты поиска.

У меня есть проект, который нужно просмотреть и исправить свойства, чтобы они, надеюсь, начали корректно отображаться в поиске, но было бы неплохо проверить, что, скорее всего, увидит поисковая система, прежде чем я заново загрузю и скажу веб-сайту, чтобы он повторно просканировал файлы.

С этой целью мне было интересно, если бы кто-нибудь сделал предварительный просмотр PDF-файлов только для текста, как моя поисковая система могла бы это увидеть? Чтобы я мог проверить содержимое, прежде чем перезагружать файл?

Или есть другой способ проверить это, может быть?

score 0 · Answer 1 · 2011-03-09T19:38:42

Инструмент pdftotext может извлечь простой текст из PDF.

Сейчас выбран русский

Проверка текстового содержимого PDF-файлов

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf search.

Проверка текстового содержимого PDF-файлов

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf search.

Похожие