Я загружаю сайт с HTTrack с пятнистыми результатами. Несколько каталогов возвращают 2 или более версий одного и того же файла HTML. Эти дубликаты в любом данном каталоге могут включать:
- файл с именем índice.html (обратите внимание на акцент), который показывает бред в браузере. При более тщательном изучении получается, что это архив .z с неверным расширением, содержащий правильный файл HTML.
- файл с именем índice.html.z, который представляет собой архив, содержащий читаемую версию этого файла
- файл с именем ndice-2.html, который является хорошей версией исходного файла índice.html, отлично читаемый в браузере
- файл с именем índice-2.html.z, который является архивом, содержащим тот же файл, но иногда этот файл несколько отличается по размеру от первого
- так далее
Журнал ошибок HTTrack показывает следующее:
18:07:32 Ошибка: "Ошибка при распаковке" (-1) по ссылке example.com/conversación/índice.html
Это испанский сайт, и в некоторых каталогах есть акценты, а файлы называются ndice.html вместо index.html. Это заставляет меня подозревать, что причина, по которой HTTrack портит загрузку, - это акценты, но я не могу доказать это, за исключением того, что я скачал английскую версию того же сайта без проблем.
Подводя итог, можно сказать, что проблема может заключаться либо в акцентированных символах в URL-адресе, либо в чем-то еще, связанном с способом обработки HTML-файлами в формате HTTrack, но мой главный вопрос остается прежним:
Это ошибка в HTTrack или ожидаемое поведение, и как мне ее обойти, чтобы успешно загрузить испанскую версию сайта?