Grep в Microsoft Word?
Я хотел бы извлечь все строки с заданной строкой из текстового документа. В мире Unix ... grep делает это без сбоев. Windows менее очевидна для меня.
Grep в Microsoft Word?
Я хотел бы извлечь все строки с заданной строкой из текстового документа. В мире Unix ... grep делает это без сбоев. Windows менее очевидна для меня.
С Cygwin (или доступом к машине с Linux) вы можете
antiword file.doc | grep "my phrase"
или же
catdoc file.doc | grep "my phrase"
Есть много конвертеров форматов файлов командной строки, чтобы аналогичным образом делать grep .
Чисто в Word решение может быть Ctrl+F (Найти), а затем Найти все - однако, я не уверен, есть ли во всех версиях MS Word кнопка Найти все .
Я знаю, это звучит примитивно, но что мешает вам сохранить файл в формате .txt, а затем разорвать его по своему вкусу.
Что означает "линия" в контексте Word? Отображаемая строка, что изменится, если вы сделаете что-нибудь с форматированием страницы? Абзац? Что-то другое?
С помощью функций поиска и замены Word вы можете сделать кучу вещей, включая изменение форматирования и другие неочевидные вещи, но все они будут действовать только на сам текст поиска, а не на любой окружающий текст.
Есть поддержка документов MS - Word, PowerPoint, Excel - в CRGREP, которую я разработал как бесплатный инструмент с открытым исходным кодом. Он также включает в себя другие трудные для поиска вещи, такие как таблицы базы данных, изображения, аудио, архивы, PDF и их комбинации. Повеселись.
Недостаточно представителей, чтобы комментировать, но я вижу, что эта проблема с документами и документами обсуждалась, поэтому любой, кто преследует тему (как и я), может найти это полезным.
Вам не нужен специальный инструмент для файлов DOCX. docx - это сжатые файлы XML.
Чтобы извлечь и удалить XML, попробуйте что-нибудь на основе
unzip -p "*.docx" word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'