1

Мне пришлось использовать скрипт Python для доступа к веб-архиву.

У меня есть файл веб-архива 'megawarc' с http://archive.org/details/archiveteam-fanfiction-warc-11 . Мне нужно отключить megawarc, используя скрипт Python, который находится по адресу https://github.com/alard/megawarc .

Я пытаюсь запустить команду restore , и у меня есть три файла (FILE.warc.gz, FILE.tar и FILE.json.gz) из первой ссылки.

У меня установлены Python 2.7 и 3.3.

Обновить:

Я запустил оба метода:

python megawarc restore FILE

И этот метод:

Убедитесь, что у вас есть файлы megawarc и ordereddict.py в одном каталоге с файлами, которые вы хотите конвертировать. Переименуйте файл megawarc в megawarc.py Откройте консоль Python в этом каталоге

Введите следующий код (строка за строкой):

import sys

sys.argv = ['megawarc','restore','FILE']

import megawarc

megawarc.main() с использованием Python 2.7, и это то, что я получаю ..

c:\Python27>python megawarc restore FILE

Traceback (последний вызов был последним): файл "megawarc", строка 563, в main ()

Файл "megawarc", строка 552, в основном mwr.process ()

Файл "megawarc", строка 460, в процессе self.process_entry (entry, tar_out)

Файл "megawarc", строка 478, в записи process_entry ["target"] ["offset"], запись ["target" ["size"])

Файл "megawarc", строка 128, в copy_to_stream вызывает исключение («Конец файла: ожидается% d байтов, но прочитано% d байтов.»% (Buf_size, l))

Исключение: конец файла: ожидается 4096 байт, но прочитано 236 байт.

Что-то еще мне не хватает?

У меня есть следующие файлы все в C:\python27:

  • FILE.tar.megawarc.json.gz
  • FILE.tar.megawarc.tar
  • FILE.tar.megawarc.warc.gz
  • megawarc
  • ordereddict.py

Это какой-то тип поврежденного файла? Какой-то тип ошибки буфера? Я что-то упускаю?

0