1

Существуют ли какие-либо инструменты для извлечения данных из файлов PDF с использованием этого метода. Допустим, у меня есть 3 категории

  1. Изображение - это будет прямоугольная аннотация, которая обрежет ту конкретную область, где размещена аннотация
  2. Заголовок - это еще одна аннотация прямоугольника, которая просто получит текст внутри этого прямоугольника. Если изображение, оно будет преобразовано в текст через OCR
  3. Автор - то же самое с # 2, но теперь сопоставлено с автором

Затем создадим формат файла, скажем, CSV:

ImageURL,Title,Author

Эти категории (поля) также должны быть сгруппированы в записи, чтобы в каждой строке было по 1 записи.

Если для этого не существует какого-либо инструмента, какие инструменты или API/SDK для программирования могут помочь мне его создать?

0