У меня есть файл PDF, содержащий карты здания, в котором я работаю, здесь:
http://www.libsys.und.edu/dev/FloorPlans_All.pdf
Исходные исходные файлы были утеряны, и меня попросили извлечь изображения карты, желательно без текста и значков, наложенных поверх них. Это оказалось досадно трудным.
До сих пор я пробовал следующие программы с графическим интерфейсом:
- Adobe Reader: позволяет мне выбирать текст, но не фоновые изображения
- FoxIt PDF Viewer: позволяет мне выбирать текст, но не фоновые изображения
- XPDF в Ubuntu 10.10: позволяет выбирать текст, но не фоновые изображения
А также следующие программы командной строки:
- pdfimages: извлекает значки, обозначающие ванные комнаты просто отлично, но не фоновые изображения
- pdftohtml: так же, как pdfimages, плюс он делает плохо размеченный HTML-документ
- pdfextract: такой же, как pdfimages
- конвертировать: успешно сохраненные изображения, но с записанным в них текстом
Я даже пытался открыть PDF вручную в текстовом редакторе и извлечь объекты потока, вставив их в новый файл и сохранив его с расширением .jpg, .png или .bmp (каждый по очереди). Учитывая, как мало я знаю о внутренней структуре файлов PDF, неудивительно, что это не сработало.
Итак ... есть ли способ получить изображения карты из этой вещи, не получая также текст и значки?