Я использую Word2007 для создания файла RTF. И, наконец , я хочу получить текстовый источник этого файла, например, {\rtf1\ansi\ansicpg1252\deff0\deflang1033{\fonttbl{\f0\fnil\fcharset0 Verdana;}}...

Вот как я создаю пустой RTF-файл:

  1. Новый текстовый файл с помощью контекстного меню.
  2. Измените его расширение на rtf.
  3. Откройте файл с помощью Word2007.
  4. Введите несколько символов и удалите их, а затем сохраните.

Как я могу получить источник:

  1. Откройте файл RTF с помощью блокнота

Затем появляется огромное количество персонажей, заканчивающихся большим количеством fffff0000 что сводит меня с ума ...

кто-нибудь знает, почему это произошло?

Спасибо

РЕДАКТИРОВАТЬ
Я использую iText2.1.5(Java-библиотека, которая управляет PDF) для создания PDF из RTF. Программа отлично работает со старым тестовым RTF-файлом, который выглядит намного чище, чем то, что я сейчас получаю из Word2007. Я просто создаю больше тестовых файлов RTF для программы, но оказывается, что она не может распознать источник из Word 2007.

Наверное, мне стоит обновить iText или понизить Word(может, старый добрый тестовый файл сгенерирован Word2003?). Но сейчас у меня мало времени.

1 ответ1

3

Лучший способ - прочитать спецификации RTF. Кроме того, Wordpad по умолчанию сохраняет как RTF, и он относительно чистый. В Word много метаданных, в том числе стилей и т.д., Которые раздувают его. То же самое происходит при сохранении в формате HTML в Word; Это бич веб-разработчиков до такой степени, что существуют специальные программы для очистки файлов Word HTML.

По сути, Word добавляет все эти метаданные, поэтому при повторном открытии файла в Word сохраняется как можно больше информации (специфичной для Word).

Если бы вы могли сказать нам, почему вы хотите открыть файл RTF в виде обычного текста, я мог бы помочь больше.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .