У меня ~ 10 миллионов небольших текстовых файлов, и я хотел бы решить следующие задачи:
- сжать все данные;
- положить все это в 1 файл для передачи через Интернет;
- иметь возможность быстро получить доступ к каждому файлу по заданному пути;
- (обновить) отдельные файлы, которые будут легко доступны из экосистемы Python.
Я придумал следующее решение:
- gzip каждый файл (сжатие);
добавьте все сжатые файлы в один архив:
single.tar -> /1/100/1001451.gz ... -> /9/956/9562548.gz
Решает ли это мои задачи?