Я получаю множество отчетов, и мне нужно извлечь некоторые данные и перевести их в лучший формат (рабочий лист Excel). Отчеты приходят в формате docx или pdf и выглядят примерно так.

Miscellaneous data...................    
Unneeded data.......        
             North               South            West
Name         Lakeview Church     Lakeview Church  
Making       Brick               Wood  
Status       Gone                "small checkmark"
unneeded data.......    
Name         Baxter Building                      Baxter Building
Making       Brick                                Brick
Making       Gone                                 Great

PDF-файлы имеют выделенный текст, но текст не все в таблицах, ни в PDF-файлах, ни в текстовых документах. Некоторые из них, другие просто в правильно размещенных текстовых полях.

Я вроде как собираюсь поработать здесь, но я надеялся, что найдется что-то, что позволило бы мне создать какой-то шаблон, который извлек бы соответствующие данные и реорганизовал бы его примерно так:

Name               Direction        Making          Status
Lakeview Church    North            Brick           Gone
Lakeview Church    South            Wood            Good

Также в отчетах есть небольшие картинки. Мне не нужно извлекать изображения, но если бы они могли быть переведены во что-то, чтобы показать, что изображение присутствует, было бы здорово. И, если бы я мог сказать, чтобы он делал такие вещи, как игнорирование всех слов с надписью "Церковь" на северной стороне, это было бы идеально.

Мне не нужно решение для документов и PDF-файлов. Я могу использовать то, что проще.

Пожалуйста, укажите мне правильное направление для того, что бы было самым быстрым / простым способом выполнить эти задачи. Есть ли удобная программа, которая может сделать это, или это то, что мне придется программировать самостоятельно. Но я новичок, поэтому, пожалуйста, дайте мне подходящую отправную точку для новичка.

1 ответ1

2

Существуют различные подходы в зависимости от вашего бюджета и ожидаемой степени автоматизации.

Вырезать / вставить и пользовательский анализ

Вы вручную открываете документы и копируете содержимое в виде текста в какую-то другую программу, которая может быть Excel. Кто-то, имеющий опыт программирования, затем пишет программы или макросы Excel, чтобы попытаться извлечь таблицы из текста и создать электронные таблицы Excel с правильно составленными таблицами.

Оптическое распознавание символов (OCR)

Вы можете приобрести приложения OCR, которые могут извлекать структурированные данные из документов и / или изображений и выводить их в электронные таблицы Excel. Простые приложения просто выводят текст, но приложения с более высокими характеристиками смогут определять макеты таблиц. Ищите "приложения OCR" в Google.

Захват документов

Наиболее автоматизированное решение - это то, где вы "обучаете" приложение структуре вашего документа, чтобы оно могло извлекать только те данные, которые вы хотите. Примером этого может быть что-то вроде Kofax Express. Это в первую очередь приложение для сканирования, но его также можно использовать для обработки документов. Это самое дорогое, но самое мощное решение. Будьте осторожны, веб-сайт Kofax перегружен устрашающим программным обеспечением для бизнеса, но я думаю, что Kofax Express - это предложение начального уровня.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .