Вероятно, нет общего решения вашей проблемы, даже если было бы здорово.
Суть проблемы заключается в том, что PDF предназначен для определения того, как что-то должно выглядеть при печати. Возможность искать формулу в PDF, вероятно, не была проблемой мэра. Так что проблема не в зрителе ; проблема в том, что PDF не содержит информацию, которую вы ищете, доступным способом.
Если у вас есть, например, альфа (α) в формуле, это может быть закодировано
- в качестве символа Юникода
U+03B1
- как простой
a
в греческий шрифт (шрифт Symbol для Windows приходит на ум)
- или это может быть просто соответствующая векторная графика, которая выглядит как альфа, но без ассоциированного с ней символа ASCII или Unicode.
В первом случае ваше решение, вероятно, должно работать, но во втором случае поиск будет останавливаться на каждом "а" в тексте. В третьем случае поиск ничего не даст, так как нет текста для поиска.
Проблема усложняется при поиске элементов с индексами, такими как $A_B^C
Это должно быть набрано определенным образом (B под A, C над ним), но не существует фиксированного правила, в котором создатель PDF должен вставить три символа в текстовое поле; он может даже решить создать три отдельных текстовых поля или решить, что все верхние индексы формулы идут первыми, а нижние индексы идут последними.
Так, в качестве примера, формула $A_B^C = D^E_F$
может быть представлена как
CEADBF
или же
ABCDEF
или же
ACBDFE
или любым другим способом, который понравился создателю PDF, при условии, что информация о местоположении для каждой буквы верна для получения правильной формулы. Само собой разумеется, что в первом и третьем случаях вам будет трудно искать `$ A_B $ '...
После всего этого объяснения, что вы можете сделать?
- немного
- попробуйте распечатать PDF в TIF, а затем распечатать его с помощью инструмента, который может работать с математическими символами
- лоббировать авторов статей для публикации препринтов на arxiv.org вместе с источником LaTex, который вы можете искать легче
- лоббировать, чтобы Adobe добавила своего рода "поддержку уравнений" в следующей версии PDF для решения проблемы; конечно, это тогда должно быть реализовано в инструментах, используемых для создания и изменения PDF