7

У меня есть Adobe Reader, Okular и Document Viewer в качестве читателей PDF. Статьи, которые я читаю, часто представляют собой тексты с математическими формулами, созданные LaTeX.

Но кажется, что поиск специальных символов или математических символов в файлах PDF с этими программами просмотра не работает идеально. Обычно я выбираю ключевую часть (специальные символы или математические выражения) из файла, затем Ctrl+C, затем Ctrl+F, затем Ctrl+V, довольно часто, что, к сожалению, выделяет зритель, к сожалению, неверно.

Я считаю, что это важная функция для зрителя, и существует реальная необходимость искать в документе не только слова, но и специальные символы.

Может кто-нибудь сказать мне, как вы обойти это? Есть ли лучший читатель PDF или какой-либо умный способ поиска?

2 ответа2

4

Вероятно, нет общего решения вашей проблемы, даже если было бы здорово.

Суть проблемы заключается в том, что PDF предназначен для определения того, как что-то должно выглядеть при печати. Возможность искать формулу в PDF, вероятно, не была проблемой мэра. Так что проблема не в зрителе ; проблема в том, что PDF не содержит информацию, которую вы ищете, доступным способом.

Если у вас есть, например, альфа (α) в формуле, это может быть закодировано

  • в качестве символа Юникода U+03B1
  • как простой a в греческий шрифт (шрифт Symbol для Windows приходит на ум)
  • или это может быть просто соответствующая векторная графика, которая выглядит как альфа, но без ассоциированного с ней символа ASCII или Unicode.

В первом случае ваше решение, вероятно, должно работать, но во втором случае поиск будет останавливаться на каждом "а" в тексте. В третьем случае поиск ничего не даст, так как нет текста для поиска.

Проблема усложняется при поиске элементов с индексами, такими как $A_B^C Это должно быть набрано определенным образом (B под A, C над ним), но не существует фиксированного правила, в котором создатель PDF должен вставить три символа в текстовое поле; он может даже решить создать три отдельных текстовых поля или решить, что все верхние индексы формулы идут первыми, а нижние индексы идут последними.

Так, в качестве примера, формула $A_B^C = D^E_F$ может быть представлена как

CEADBF

или же

ABCDEF

или же

ACBDFE

или любым другим способом, который понравился создателю PDF, при условии, что информация о местоположении для каждой буквы верна для получения правильной формулы. Само собой разумеется, что в первом и третьем случаях вам будет трудно искать `$ A_B $ '...

После всего этого объяснения, что вы можете сделать?

  • немного
  • попробуйте распечатать PDF в TIF, а затем распечатать его с помощью инструмента, который может работать с математическими символами
  • лоббировать авторов статей для публикации препринтов на arxiv.org вместе с источником LaTex, который вы можете искать легче
  • лоббировать, чтобы Adobe добавила своего рода "поддержку уравнений" в следующей версии PDF для решения проблемы; конечно, это тогда должно быть реализовано в инструментах, используемых для создания и изменения PDF
2

Похоже, что на http://www.bluebeam.com есть продукт, который может выполнять визуальный поиск символов в PDF. Вы выделяете символ или формулу интереса, а затем он возвращает список совпадений с гиперссылкой. Нет, я не компания Shill - просто был тот же вопрос! Спасибо

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .