У меня есть около 50 файлов HTML, которые о банковских платежах компании.Я должен искать около серийных номеров в файлах.Я использую Agent Ransack для поиска по содержимому файлов.Но моя проблема заключается в формате чисел в файлах HTML который является персидским / арабским, как ۲۶۴۲۰۸۵۷ .Но этот номер не хранится в источнике как 26420857 .На самом деле он хранится в источнике html-файла в виде строки типа: ۱۳۹۲/۱۱/۲۵ !

Поэтому, когда я пытаюсь найти файл, который содержит 26420857 , результат будет пустым.Как я могу решить эту проблему?

Я пытаюсь преобразовать числа в формат &# , но я не знаю, как мне это сделать.Также я пытаюсь использовать notepad++ для преобразования чисел &# формата в обычные числа, но не смог.

1 ответ1

1

Вы можете использовать Microsoft Word для чтения в HTML, а затем сохранить его в текстовом файле, указав кодировку UTF-8 или арабский ISO. Я полагаю, вы можете искать в тексте на арабском языке, не сохраняя файл тоже.

Кроме того, если HTML-страница написана на арабском языке, а не на английском / арабском, вы можете попробовать Google Translate. Требуются обе URL-ссылки, или вы можете просто скопировать / вставить HTML-содержимое напрямую.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .