1

Я создаю много таблиц в Excel. В основном состоит из различных столбцов. Проблема в том, что один из этих столбцов содержит много текста (целые абзацы). Текст, вставленный в этот столбец, взят из гигантского файла PDF (этот файл PDF содержит много других вещей, которые мне не нужны).

Пока что я сделал, чтобы вручную скопировать и вставить нужные мне файлы из PDF в Excel

Копировать »Двойной щелчок по ячейке» Вставить

Это приводит к тому, что текст теряет форматирование, и когда я вставляю абзац в определенную ячейку, я получаю много пустых мест, которые мне нужно удалить вручную.

Нажмите на ячейку »Заблокируйте пустые пробелы, пока абзац не упадет в единственную строку на панели формул» Оберните текст для аккуратности

Мое решение этого заключается в

  1. Скопируйте несколько абзацев в таблицу MS Word
  2. Объединяйте строки, пока каждый абзац не попадает в единый ряд
  3. Исправьте форматирование, удалив разрывы абзацев и замените их пробелами с помощью метода поиска / замены, за которым следует
  4. Вставьте это в Excel

Теперь эти электронные таблицы могут стать довольно большими, и постоянное копирование копий превращается в огромную боль. Есть ли более простой способ сделать это?

В идеале мне бы хотелось, чтобы каждый абзац из PDF-документа попадал в отдельную ячейку Excel, без раздражающего пробела.

Я думал просто выделить нужные мне разделы из PDF и каким-то образом извлечь их из PDF в столбец Excel. Каким-то волшебным образом вставить каждый абзац в отдельную ячейку в единственном столбце без тонны пустых мест.

(Или же)

Вставка всего PDF в Excel (опять-таки каким-то волшебным образом вставляя каждый абзац в отдельную ячейку в единственном столбце без тонны пробелов), и я могу просто удалить абзац / материал, который мне не нужен.

Я знаю, что не смогу найти идеальное решение, но любой метод, который сэкономит мне время, был бы великолепен!

Эта работа, которую я делаю, для школы, и нет никакого способа обойти это.

1 ответ1

0

Краткий ответ: нет.

Длинный ответ: Это во многом зависит от характера PDF. Вопреки тому, во что вы могли бы поверить Adobe, спецификация PDF - это спагетти-беспорядок на 900 страниц со множеством вещей, которые зависят как от того, как был создан PDF, так и от того, как он читается.

Если рассматриваемый PDF-файл имеет встроенный текстовый слой в каком-то полезном формате, например, XML , вы, вероятно, можете извлечь только этот слой и использовать XML для сопоставления "абзацев" с различными ячейками Excel. Специфика полностью зависит от того, как был создан файл PDF, как выглядит такой потенциальный слой, и от ваших навыков кодирования.

Если вы решили, что хотите попробовать извлечь слои PDF, посмотрите эту ветку, чтобы понять, в чем дело.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .