У меня есть огромный кусок данных (11G) в хранилище Subversion, которое я использую rsync для миграции на Alfresco, который lucene индексирует новые файлы, когда они попадают в файловую систему. Я использую dav mount в качестве прокси, чтобы позволить мне rsync.
Проблема, с которой я сталкиваюсь, заключается в том, что индексирование post-rsync - довольно дорогая операция для такого огромного куска данных, поэтому мне было интересно, есть ли способ логически разделить rsync на пакеты одинакового размера (скажем, по 500 МБ каждая), так что Я мог бы запланировать их в хрон.
В данный момент я перебираю папки верхнего уровня и сначала перебираю самые маленькие из них, но как только я закончу с ними, гораздо большие подкаталоги будут довольно проблематичными.
Пожалуйста, дайте мне знать, если вам нужна дополнительная информация.
Заранее спасибо.