1

У меня есть PDF-файл, который написан на персидском языке, и это справа налево. Так как персидский использует формат UTF-8, поэтому я не могу преобразовать его в обычный текст в Microsoft Word, также я не могу скопировать и вставить текст, в результате чего нечитаемые символы. Я пробовал много программ, таких как unipdf и e-Pdf Converter, однако после преобразования символы по-прежнему отображаются неправильно. Я даже попробовал OCR, но опять та же проблема появилась. У PDF нет пароля или ограничений.

У кого-нибудь есть другие идеи?

Редактировать: я на самом деле пытался создать файл в MS Word и преобразовать его в PDF, после этого у меня снова была та же проблема с файлом PDF (даже кодировка была известна)

3 ответа3

1

Очень часто файлы PDF в нелатинских сценариях (особенно в сценариях RTL, таких как арабский, иврит и фарси) генерируются программным обеспечением, которое сортирует LTR по тексту на уровне слов или фрагментов предложений или просто каким-то образом получает нужные символы для дисплей, но вы получите бред для «логического» текста. В этих случаях мало что можно сделать, кроме как написать собственный обратный конвертер, который фактически не подходит.

Тем не менее, если вы можете выяснить, как создается файл - что часто указывается в метаданных, доступных с помощью обычных программ чтения PDF-файлов, - возможно, существует возможность открыть файл в приложении, которое его сгенерировало, или, по крайней мере, вы можете сделать Ваш вопрос более конкретный.

0

В настоящее время я работал над преобразованием PDF в редактируемый персидский текст. Лучшее решение, которое я нашел, это использовать Google Doc следующим образом.

  1. Вы должны конвертировать PDF-страницы в изображения. Для этого вы можете использовать Adobe Acrobat Reader (не Adobe Reader, который является бесплатным) или в Linux я использую GIMP, чтобы открыть PDF, а затем я выбираю, чтобы открыть каждую страницу в отдельном изображении. Это твой собственный выбор.
  2. Загрузите файлы изображений на Google Drive
  3. Перейдите на Google Диск и щелкните правой кнопкой мыши на каждом изображении, затем нажмите open with google doc
  4. дождитесь, пока google doc откроет редактируемый текст из вашего изображения
  5. Скопируйте это в слово

Я не знаю, есть ли какой-либо автоматизированный метод. Я надеюсь, что когда-нибудь у меня будет время подать заявку для этого автоматически.

0

У меня была такая же проблема с преобразованием файлов PDF в слово. После копирования / вставки в Word форматирование изменилось и стало причиной проблем. Я перепробовал несколько онлайн-конвертеров, но они также потерпели неудачу.
Единственный метод, который работал, был следующим:

  1. Откройте файл PDF с помощью Adobe Acrobat Reader, затем в меню «Файл» выберите «Печать». Из имен принтеров выберите Adobe Acrobat. Да, вы собираетесь создать PDF из PDF!
  2. Откройте новый файл PDF с помощью Google Chrome (перетащите файл в Chrome).
  3. Теперь просто выделите весь текст (Ctrl + A) и скопируйте / вставьте его в пустой файл Word.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .