Я преобразовал документ PDF в формат слова. PDF является выпуском журнала. Мне нужен весь текст с определенным шрифтом, а также 9,5 или 10 пунктов. Это содержание статей, на которых я хочу заниматься анализом текста (только частоты слов). Тонны других вещей, которые было бы чрезвычайно утомительно удалять другим способом.

Щелчок правой кнопкой мыши по области текста и выбор "Выбрать текст с похожим форматированием" не работает. (Это то, что я планировал сделать). Выбирает только текущий абзац. Я попытался "выбрать все", а затем установил одинаковое форматирование всех абзацев, но это не имело никакого эффекта.

1 ответ1

2

В копии вашего документа (в случае, если вы хотите сохранить весь текст), вы можете удалить весь текст, который не имеет определенного шрифта и размера, выполнив 3 операции поиска и замены (первые два выделят текст, который вы хотите сохранить, третий удалит оставшийся простой текст).

(Примечание: убедитесь, что текстовые поля «Найти что» и «Заменить на» пусты и не содержат пробелов в «Заменить на»)

  1. Найдите весь текст шрифта размером 9,5 и замените его подсветкой (текст будет сохранен, но выделите его последним использованным вами цветом подсветки - вы можете выделить слово в начале, чтобы у вас был выбран цвет).
  2. Сделайте то же самое и найдите и замените, но на этот раз замените 10-точечный шрифт на выделение.

Шаги 1 и 2 выше означают, что любой текст, который НЕ соответствует 9,5 или 10 точкам в стиле шрифта, который вы ищете, не будет выделен.

  1. Выполните поиск и замену, где поиск просто не выделен (чтобы выбрать параметр «Не выделять» в качестве параметра «Формат», его нужно выбрать дважды с помощью кнопки «Формат» в левом нижнем углу скриншота).

Это удалит весь невыделенный текст, оставив только тот текст, который вы хотите сохранить.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .