В последнее время я видел, что scribd очень усложняет пользователям (свободным пользователям) просмотр документа, размещенного на их сайте. В документе нет возможности поиска, не говоря уже о возможности его загрузки.
Используя javascript, они загружают страницы по требованию в браузер, поэтому функция "сохранить как" в браузере мало помогает.
К моему изумлению, я увидел, что даже копирование / вставка текста копирует бред в буфер обмена! Чтобы проверить, что было не так, я отключил JavaScript в браузере, а затем снова загрузил тот же документ. Вуаля, я видел бред. Итак, похоже, что javascript от scribd каким-то образом декодирует бессмысленный текст и затем отображает его в браузере.
Теперь мой вопрос заключается в том, что даже после включения javascript и правильного отображения текста в браузере, если я перехожу к объектам DOM, соответствующим выбранному тексту, я все равно вижу бессмысленный текст.
Итак, теперь я в замешательстве. Текст отображается правильно для пользователя, но объекты DOM по-прежнему содержат бред. Таким образом, вопрос заключается в том, какой тип javascript-хуков / кода использует сайт, чтобы иметь возможность сохранить тарабарщину в объектах DOM и по-прежнему отображать декодированный текст?
Есть ли способ получить доступ к декодированному тексту? Мое намерение состоит не в том, чтобы перепроектировать алгоритм декодирования, а в том, чтобы найти, где хранится декодированный текст?
Пример документа:
Посмотрите, что происходит, когда вы включаете / выключаете Javascript!