2

После запроса некоторых ежедневных / почасовых данных о продажах у сотрудника, который отвечает за такие запросы, мне дали ряд файлов PDF. Используемая по какой-либо причине программа торговой точки отвечает на запросы о предоставлении информации такого типа в виде файлов PDF.

Проблема:

Файлы PDF выглядят в формате, который можно легко скопировать и вставить в электронную таблицу. Есть три столбца, которые выглядят аккуратно организованными на двух страницах. При копировании / вставке первой страницы все три столбца с первой страницы PDF-файла сбрасываются в один столбец, состоящий из даты, за которой следуют часы для транзакций в этот день. В конце этой информации о дате / времени следуют все значения общих продаж, к которым следует прикрепить дату и время транзакции. (ПРИМЕЧАНИЕ. В столбце «Дата» нет повторяющихся дат, т. Е. Для нескольких транзакций в течение дня указывается только один гггг / мм / дд для первой строки, но не для следующих строк.)

Хотя это было огромной болью, примерно за четыре или пять шагов можно было разбить один столбец данных на три столбца, соответствующих PDF.

На второй странице PDF-файла при попытке копирования / вставки в электронную таблицу создается один столбец, в котором первая треть ячеек представляет собой Даты из PDF, вторая треть ячеек - часы транзакций и последняя треть ячеек заполняется общим объемом продаж.

После копирования / вставки невозможно определить, какие часы принадлежат каким датам или общим продажам из-за отсутствия дублированных дат в столбце «Дата», как указано выше.

Мой PDF-фу почти отсутствует. Я только сейчас начал работать с редакторами PDF и некоторыми веб-сайтами www.convertmyPDFforfree.com, причем абсолютно ничего не дотягивало до полезного вывода. (Оба метода до сих пор ничего не делали, кроме пустых документов.)

Прежде чем я вернусь и приучу моего коллегу выяснить способ создания отчета в каком-либо другом формате, отличном от PDF, есть ли какой-нибудь метод, с помощью которого можно взять данные, которые выглядят правильно отформатированными в PDF, и скопировать / вставить их? в электронную таблицу, которая будет выглядеть так же?

Я ценю любую помощь, которая может быть предоставлена. Данные о продажах не настолько чувствительны, что я не мог расстаться с тем, чтобы кто-то на самом деле увидел, с чем нужно иметь дело, просто дайте мне знать. Размер PDF составляет менее 100 КБ каждый, поэтому отправка их не должна быть обузой для любой заинтересованной стороны.

3 ответа3

3

Мое текущее решение моей собственной проблемы было использовать pdftotext.

Затем я использовал терминал Ubuntu, чтобы перейти к папке с файлами PDF. Синтаксис был:

pdftotext fullnameofpdffiletoconverttotext.pdf nameofcreatedtextfile -layout

Без -layout добавленный вывод текста не отличался от моих попыток напрямую скопировать и вставить из PDF. (Который был совершенно бесполезным беспорядком). Добавление аргумента -layout в командной строке дало мне текстовый файл с зеркальным отображением PDF.

Скопируйте / вставьте из вновь созданного текстового файла в электронную таблицу и убедитесь, что флажок "Пробел" установлен в меню "Импорт текста" или "Специальная вставка", сохранил целостность строк, но добавил много столбцов и в некоторых интервалы смещают столбцы в строке на один или два дополнительных столбца. Это было очищено путем удаления лишних пустых столбцов.

При дальнейшем исследовании было обнаружено, что аргумент -raw в конце командной строки вместо -layout работает намного лучше. Синтаксис в папке PDF, содержащей:

pdftotext fullnameofpdffiletoconverttotext.pdf nameofcreatedtextfile -raw

Вставка из нового текстового файла в электронную таблицу путем установки флажка "Пробел" в "Параметрах разделителя" привела к хорошим аккуратным четырем столбцам, единственная проблема которых заключалась в том, что мои исходные данные не дублировали даты для каждой строки, где произошла транзакция в тот же день.

Замечательно!

ПРИМЕЧАНИЕ. В моих исходных PDF-файлах был только текст. Нет графики.

1

У меня есть Acrobat Pro, но если у вас есть X или XI, это также должно работать, не уверен насчет Reader. Выберите данные в виде столбца, который вы хотите захватить. Щелкните правой кнопкой мыши и выберите «Копировать как таблицу». Затем вы можете вставить его в виде таблицы в Word или в Excel.

1

Я бы использовал какое-то программное обеспечение для распознавания текста для обработки PDF-файлов и извлечения всех данных, Abby Fine Reader может напрямую читать и обрабатывать PDF-файлы.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .