-1

Меня интересуют архивы WET для последнего сканирования в апреле 2018 г. (http://commoncrawl.org/2018/05/april-2018-crawl-archive-now-available/)

Можно ли скачать полный архив WET сразу? Я вижу, что на сайте доступны отдельные пути, но я бы хотел избежать необходимости перебирать каждый отдельный файл. Это возможно? Я вынужден повторять каждый файл?

Отказ от ответственности: я noob с командной строкой. Любая подробная помощь приветствуется!

Спасибо!

1 ответ1

1

Можно ли скачать полный архив WET сразу?

Если они не предлагают его в формате, отличном от серии файлов gzip , это кажется маловероятным.

Несколько архивов

В качестве побочного комментария, когда вы загружаете большой набор данных, крайне желательно разделить вещи на меньшие архивы. По сути, он позволяет прервать соединение с минимальным суетой (вы потеряли только один маленький файл). Аналогичным образом, при условии, что один или несколько файлов будут повреждены во время передачи, вам нужно только повторно загрузить эти файлы - и они, вероятно, будут намного менее хлопотными, чем повторная загрузка частично загруженного, поврежденного, массивного отдельного архива.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .