Файлы PDF могут сильно отличаться друг от друга и содержать ссылки, кнопки, поля формы, аудио, видео, бизнес-логику или представлять собой простую коллекцию отсканированных изображений, одно на страницу, даже если они являются стандартными. Действительно, формат переносимого документа, или коротко PDF, является открытым стандартом, поддерживаемым Международной организацией по стандартизации (ISO) [ 1 ].
Стратегия извлечения данных из PDF-файла может соответственно различаться в зависимости от его содержимого, и не всегда наилучшим способом является использование OCR; если данные доступны непосредственно внутри, лучше избегать уровня обработки данных, который не является полностью безошибочным.
- Если PDF-файлы создаются из документа текстового процессора (Word, Latex ...), у вас есть хорошие возможности для успешного извлечения данных без необходимости повторения какого-либо программного обеспечения для распознавания текста . С помощью некоторого средства просмотра вы можете выбрать таблицу и экспортировать / сохранить выбор как минимум в формате
txt
или в формате csv
; затем вы можете импортировать его в eXcel. Быстрый поиск в выбранной вами поисковой системе даст вам обновленный список "open source" or "freeware" pdf tools export
, или вы можете просмотреть страницу википедии о программном обеспечении pdf [ 1b ] .
Существуют некоторые инструменты, даже с открытым исходным кодом или бесплатное программное обеспечение, созданные для этой цели и доступные для каждой операционной системы. С помощью программы Adobe вы можете выбрать таблицу и экспортировать напрямую [ 2 ] в xls
или xlsx
... Опять же, быстрый поиск в выбранной вами поисковой системе даст вам обновленный список "open source" or "freeware" pdf viewers export table
.
Есть некоторые интернет-сайты, которые предлагают бесплатно эту услугу, даже если для счетов я не должен предлагать вам ... в том числе Google Docs один [ 3 ] .
- Наконец, что не менее важно, если они являются изображениями или другие стратегии потерпели неудачу, вы можете использовать OCR, установив флажок для ограничения параметров OCR. С FreeOCR [ 4 ] , например, вы можете выбрать поле, на котором выполнить OCR ...
Вы можете нарисовать рамку вокруг части изображения с помощью мыши и затем распознать текущую страницу. Это удобно, если вы просто хотите получить текст из одного региона страницы.
Если ваш OCR не поддерживает эту функцию или вам неудобно обрабатывать много файлов одновременно, вы всегда можете вернуться к Imagemagick [ 5 ] или любому другому инструменту и извлечь фрагмент изображения интересующей области. Затем вы можете предоставить вашему OCR только выбранное изображение , без заголовка или ненужной области.
Так что scan
-> extract subimage
-> Ocr on the subimage
-> данные txt
или csv
-> eXcel
.
С Imagemagick Converter вы можете сделать что-то похожее на
convert -size 2480X3508 -depth 8 -extract 640x480+1280+960 file.pdf img.png
преобразовать файл PDF в файл PNG с размерами страницы A4 для 300 DPI и извлечь поле с геометрическими параметрами [ 6 ] размером 640x480
начиная с точки 1280+960
.
Обратите внимание, что при сканировании вручную вы увидите разные позиции интересующего вас региона для каждой страницы.