2

Я скачал википедию в сжатом виде. Это файл .7z, который содержит файл .tar. В сжатом виде это всего 14 ГБ. Если я распакую его, в нем будет 208 ГБ. И у меня не так много места на моем жестком диске.

Я предполагаю, что есть способ использовать его в сжатом виде, используя какие-то инструменты монтирования.

Я на Windows Vista.

Что делать?

Ссылка на вопрос ServerFault.

6 ответов6

1

В Unix-системе (или в Cygwin (Unix для Windows), среде Unix) вы можете передать файл и получить из него листинг, или, возможно, создать zip-файл всего этого, что обеспечит произвольный доступ.

В некотором смысле tar - это особенность, так как она предназначена для ленточных накопителей (односторонний линейный доступ).

Получите Linux vm и виртуальный env (скажем, vmware server?) Или cygwin, и получайте удовольствие.

7z -options_to_extract_to_console/pipe wiki9.tar.7z | tar t > listing_of_files.txt

даст вам список того, что было там

затем

7z -same_options_as_before wiki9.tar.7z | tar -xT list_of_files_I_want

и это должно написать их (возможно, где-то странно).

Я думаю. У меня сейчас нет списка устройств 7z на Unix.

Или сделать это zip-архивом:

7z -same_options_as_before wiki9.tar.7z | tar -x | zip wiki.zip -

Обратите внимание, что он, вероятно, будет в 2-4 раза больше (лучше склеивать файлы, а затем сжимать, а не сжимать по одному, и 7z использует лучшее сжатие).

Ожидайте, что это займет часы.

Подумайте о том, чтобы одолжить внешний диск на несколько дней:- или модернизируйте свой HD, подешевите до 100 долларов за внутренний или внешний более 200 ГБ, даже за ноутбук HD.

1

Я думаю, что вы должны извлечь файл tar.7z один раз на весь его размер более 200 ГБ ,
Затем вы можете повторно заархивировать базовый каталог в виде чистого архива 7z .

Вероятно, он не будет превышать 14 ГБ.

После этого вы сможете легче просматривать новый архив 7z .
для этого потребуется один раз: распаковать, распаковать и распаковать, что займет место на диске и время на вычисления.

1

Любой приличный файловый менеджер Orhtodox позволяет просматривать архивы. Я знаю, что Total Commander имеет плагин 7zip, который позволит вам просматривать архив 7z как каталог.

0

Открыть его с помощью 7Zip? Я распакую только то, что ты ему скажешь ... хотя это может занять некоторое время.

Изменить: подождите минуту, я только что понял, что это, возможно, идея дамп из-за размера. Я не знаю, как именно работает 7Zip, но я предполагаю, что он просто извлекает список файлов, не кэшируя весь контент.

0

Вы в принципе не можете сделать это. Стиль сжатия 7zip не позволяет открывать случайные разделы без открытия всего файла. Если я правильно помню, это потоковая система.

Например, это отличается от архивов .zip, которые сжимают каждый файл индивидуально (с любым алгоритмом, который им нравится), и .bz2 будет использовать фиксированный (обычно) размер блока 900 КБ. Обе эти формы могут быть использованы для поиска в отдельном пространстве без полного сжатия.

И просто добавьте оскорбление на случай, если я ошибаюсь в истории .7zip: Tar-файлы не хранят информацию о своих файлах в одном месте, поэтому вам также нужно ее расширить. См. Http://en.wikipedia.org/wiki/Tar_%28file_format%29#Random_access

По сути, вам придется найти место на диске, если вы хотите использовать эти файлы.

0

К вашему сведению, дампы данных Википедии обычно представляют собой один файл XML.

Несколько лет назад я написал анализатор дампов в Википедии на C: wikiq. Он преобразует потоки дампов данных в формат истории ревизий, разделенных табуляцией, который можно использовать в программах статистической обработки.

7za e -so <file> | ./wikiq | <tab-separated processing program>

Если вы отбрасываете текст и данные комментариев (как это происходит по умолчанию), обработка фактически ограничивается декомпрессией (20-30 Мбит / с).

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .