У меня есть этот PDF-файл
https://www.dropbox.com/sh/thhjvtlzebe20ab/AADVLBVntblYi4Nyi_SlXVRNa?dl=0
который содержит английский и арабский язык. Я хочу преобразовать его в файл .docx, и есть много способов, но ни один из них не дает отличных результатов.
- Если я открою файл PDF с помощью MS Office 2016, я получу правильное форматирование, и все арабские буквы будут преобразованы правильно. Но я теряю почти все фигуры / рисунки, которые есть в документе.
- Если я преобразую файл PDF в файл .docx, я получу все фигуры / рисунки, но затем получу кучу разрывов страниц, разрывов разделов, разрывов столбцов и т.д., И, кроме того, 70% арабских слов не будут правильно преобразованы.
- Я могу избавиться от разрывов, используя код VBA, и я могу исправить большинство плохо преобразованных арабских слов, используя другой код, но все еще остается много слов, где я должен исправить их вручную.
- Использование Google Docs дает кучу беспорядка.
- Использование Abbyy Finereader также приводит к путанице слов.
Некоторая полезная информация:
- Этот файл был создан с использованием MS Office Word 2013. Я потерял исходные файлы, потому что мой жесткий диск сломался и делал только резервные копии файлов PDF. У всего есть тот же шрифт, который (раз новый римский)
Изменить: я использовал Adobe Acrobat Pro для преобразования из PDF-файла в. DOCX файл
Если я просто скопирую и вставлю арабские слова из pdf в документ word, используя опцию вставки "только текст", я получу почти идеальные результаты. Но у меня есть более 250 страниц, и это займет время, которого у меня нет.