Я получаю множество отчетов, и мне нужно извлечь некоторые данные и перевести их в лучший формат (рабочий лист Excel). Отчеты приходят в формате docx или pdf и выглядят примерно так.
Miscellaneous data...................
Unneeded data.......
North South West
Name Lakeview Church Lakeview Church
Making Brick Wood
Status Gone "small checkmark"
unneeded data.......
Name Baxter Building Baxter Building
Making Brick Brick
Making Gone Great
PDF-файлы имеют выделенный текст, но текст не все в таблицах, ни в PDF-файлах, ни в текстовых документах. Некоторые из них, другие просто в правильно размещенных текстовых полях.
Я вроде как собираюсь поработать здесь, но я надеялся, что найдется что-то, что позволило бы мне создать какой-то шаблон, который извлек бы соответствующие данные и реорганизовал бы его примерно так:
Name Direction Making Status
Lakeview Church North Brick Gone
Lakeview Church South Wood Good
Также в отчетах есть небольшие картинки. Мне не нужно извлекать изображения, но если бы они могли быть переведены во что-то, чтобы показать, что изображение присутствует, было бы здорово. И, если бы я мог сказать, чтобы он делал такие вещи, как игнорирование всех слов с надписью "Церковь" на северной стороне, это было бы идеально.
Мне не нужно решение для документов и PDF-файлов. Я могу использовать то, что проще.
Пожалуйста, укажите мне правильное направление для того, что бы было самым быстрым / простым способом выполнить эти задачи. Есть ли удобная программа, которая может сделать это, или это то, что мне придется программировать самостоятельно. Но я новичок, поэтому, пожалуйста, дайте мне подходящую отправную точку для новичка.