Существуют ли какие-либо инструменты для извлечения данных из файлов PDF с использованием этого метода. Допустим, у меня есть 3 категории
- Изображение - это будет прямоугольная аннотация, которая обрежет ту конкретную область, где размещена аннотация
- Заголовок - это еще одна аннотация прямоугольника, которая просто получит текст внутри этого прямоугольника. Если изображение, оно будет преобразовано в текст через OCR
- Автор - то же самое с # 2, но теперь сопоставлено с автором
Затем создадим формат файла, скажем, CSV:
ImageURL,Title,Author
Эти категории (поля) также должны быть сгруппированы в записи, чтобы в каждой строке было по 1 записи.
Если для этого не существует какого-либо инструмента, какие инструменты или API/SDK для программирования могут помочь мне его создать?