На моем веб-сайте есть хранилище файлов, которое включает в себя текстовый поиск - он ищет не только заголовки файлов, но и их свойства и содержимое.

Проблема в том, что некоторые файлы не были сохранены правильно и возвращают действительно странные результаты поиска.

У меня есть проект, который нужно просмотреть и исправить свойства, чтобы они, надеюсь, начали корректно отображаться в поиске, но было бы неплохо проверить, что, скорее всего, увидит поисковая система, прежде чем я заново загрузю и скажу веб-сайту, чтобы он повторно просканировал файлы.

С этой целью мне было интересно, если бы кто-нибудь сделал предварительный просмотр PDF-файлов только для текста, как моя поисковая система могла бы это увидеть? Чтобы я мог проверить содержимое, прежде чем перезагружать файл?

Или есть другой способ проверить это, может быть?

1 ответ1

0

Инструмент pdftotext может извлечь простой текст из PDF.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .