Мне пришлось использовать скрипт Python для доступа к веб-архиву.
У меня есть файл веб-архива 'megawarc' с http://archive.org/details/archiveteam-fanfiction-warc-11
. Мне нужно отключить megawarc, используя скрипт Python, который находится по адресу https://github.com/alard/megawarc .
Я пытаюсь запустить команду restore
, и у меня есть три файла (FILE.warc.gz, FILE.tar и FILE.json.gz) из первой ссылки.
У меня установлены Python 2.7 и 3.3.
Обновить:
Я запустил оба метода:
python megawarc restore FILE
И этот метод:
Убедитесь, что у вас есть файлы
megawarc
иordereddict.py
в одном каталоге с файлами, которые вы хотите конвертировать. Переименуйте файлmegawarc
вmegawarc.py
Откройте консоль Python в этом каталогеВведите следующий код (строка за строкой):
import sys
sys.argv = ['megawarc','restore','FILE']
import megawarc
megawarc.main() с использованием Python 2.7, и это то, что я получаю ..
c:\Python27>python megawarc restore FILE
Traceback (последний вызов был последним): файл "megawarc", строка 563, в main ()
Файл "megawarc", строка 552, в основном mwr.process ()
Файл "megawarc", строка 460, в процессе self.process_entry (entry, tar_out)
Файл "megawarc", строка 478, в записи process_entry ["target"] ["offset"], запись ["target" ["size"])
Файл "megawarc", строка 128, в copy_to_stream вызывает исключение («Конец файла: ожидается% d байтов, но прочитано% d байтов.»% (Buf_size, l))
Исключение: конец файла: ожидается 4096 байт, но прочитано 236 байт.
Что-то еще мне не хватает?
У меня есть следующие файлы все в C:\python27
:
FILE.tar.megawarc.json.gz
FILE.tar.megawarc.tar
FILE.tar.megawarc.warc.gz
megawarc
ordereddict.py
Это какой-то тип поврежденного файла? Какой-то тип ошибки буфера? Я что-то упускаю?