1

Есть ли способ организовать 2500 файлов PDF в соответствии с языком текста внутри каждого файла. У меня есть 2500 руководств по обслуживанию на разных языках, и они находятся в одной папке, мне нужно извлечь только файлы на английском языке.

ничего не нашел в сети :-)

Спасибо

1 ответ1

1

В общем нет. В вашем конкретном случае это может быть возможно, но вам придется проделать значительную работу.

В общем

Я уверен, что в спецификации PDF нет ничего, что предписывало бы наличие метаданных, указывающих основной язык текста в PDF. Даже если бы и было, существует так много различных программных приложений для создания PDF, что вы можете быть уверены, что некоторые из них пропустят его или установят для него общее значение.

Я уверен, что вы можете создавать PDF-файлы из файлов PS, которые используют произвольную кодировку текста. Это означает, что вы даже не можете гарантировать, что кодировка может быть определена из содержимого PDF. Поэтому вы не можете быть уверены в возможности извлечь текст, из которого можно угадать язык.

Особый случай

Если ваши PDF-файлы взяты из одного источника, все они созданы с использованием одного и того же набора инструментов и имеют ограниченный диапазон языков, возможно, можно написать программу или скрипт, который будет выполнять то, что вы хотите. Однако маловероятно, что достаточное количество людей будет нуждаться в этом, чтобы было легко найти существующее решение, которое будет работать в вашем конкретном случае.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .