20

Фон

Мне не хватило места на /home/data и мне нужно перенести /home/data/repo в /home/data2 .

/home/data/repo содержит 1 млн. каталогов, каждый из которых содержит 11 каталогов и 10 файлов. Это составляет 2 ТБ.

/home/data на ext3 с включенным dir_index. /home/data2 находится на ext4. Запуск CentOS 6.4.

Я предполагаю, что эти подходы медленны из-за того, что repo/ имеет 1 миллион каталогов непосредственно под ним.


Попытка 1: mv быстр, но прерывается

Я мог бы сделать, если бы это закончилось:

/home/data> mv repo ../data2

Но это было прервано после того, как было переведено 1,5 ТБ. Он писал со скоростью около 1 ГБ / мин.

Попытка 2: rsync сканирует после 8 часов создания списка файлов

/home/data> rsync --ignore-existing -rv repo ../data2

Создание «инкрементного списка файлов» заняло несколько часов, а затем скорость передачи составляет 100 МБ / мин.

Я отменяю это, чтобы попробовать более быстрый подход.

Попытка 3а: mv жалуется

Тестирование в подкаталоге:

/home/data/repo> mv -f foobar ../../data2/repo/
mv: inter-device move failed: '(foobar)' to '../../data2/repo/foobar'; unable to remove target: Is a directory

Я не уверен, что это ошибка, но, возможно, cp может выручить меня ..

Попытка 3b: после 8 часов cp никуда не денется

/home/data> cp -nr repo ../data2

Он читает диск в течение 8 часов, и я решаю отменить его и вернуться к rsync.

Попытка 4: rsync сканирует после 8 часов создания списка файлов

/home/data> rsync --ignore-existing --remove-source-files -rv repo ../data2

Я использовал --remove-source-files думая, что это может сделать его быстрее, если я сейчас начну очистку.

Для создания списка файлов требуется не менее 6 часов, а затем скорость передачи составляет 100-200 МБ / мин.

Но сервер был перегружен ночью, и мое соединение закрылось.

Попытка 5: ТОЛЬКО 300 ГБ ОСТАЛОСЬ ДВИГАТЬ, ПОЧЕМУ ЭТО ТАК БОЛЬНО

/home/data> rsync --ignore-existing --remove-source-files -rvW repo ../data2

Прервано снова. Казалось, что -W ускоряет "отправку списка добавочных файлов", что, на мой взгляд, не имеет смысла. Несмотря на это, передача ужасно медленная, и я отказываюсь от этого.

Попытка 6: tar

/home/data> nohup tar cf - . |(cd ../data2; tar xvfk -)

В основном, пытаясь переписать все, кроме игнорирования существующих файлов. Он должен расширять до 1,7 ТБ существующих файлов, но, по крайней мере, он читает со скоростью 1,2 ГБ / мин.

Пока что это единственная команда, которая дает мгновенное удовлетворение.

Обновление: снова прервано, как-то даже с nohup ..

Попытка 7: харакири

Все еще обсуждаем этот

Попытка 8: слияние по сценарию с mv

В директории назначения было около 120 тыс. Пустых директорий, поэтому я побежал

/home/data2/repo> find . -type d -empty -exec rmdir {} \;

Рубиновый скрипт:

SRC  = "/home/data/repo"
DEST = "/home/data2/repo"

`ls #{SRC}  --color=never > lst1.tmp`
`ls #{DEST} --color=never > lst2.tmp`
`diff lst1.tmp lst2.tmp | grep '<' > /home/data/missing.tmp`

t = `cat /home/data/missing.tmp | wc -l`.to_i
puts "Todo: #{t}"

# Manually `mv` each missing directory
File.open('missing.tmp').each do |line|
  dir = line.strip.gsub('< ', '')
  puts `mv #{SRC}/#{dir} #{DEST}/`
end

СДЕЛАННЫЙ.

3 ответа3

5

Вы когда-нибудь слышали о разделении больших задач на более мелкие?

/home/data/repo содержит 1 млн. каталогов, каждый из которых содержит 11 каталогов и 10 файлов. Это составляет 2 ТБ.

rsync -a /source/1/ /destination/1/
rsync -a /source/2/ /destination/2/
rsync -a /source/3/ /destination/3/
rsync -a /source/4/ /destination/4/
rsync -a /source/5/ /destination/5/
rsync -a /source/6/ /destination/6/
rsync -a /source/7/ /destination/7/
rsync -a /source/8/ /destination/8/
rsync -a /source/9/ /destination/9/
rsync -a /source/10/ /destination/10/
rsync -a /source/11/ /destination/11/

(...)

Время перерыва на кофе

4

Вот что происходит:

  • Изначально rsync создаст список файлов.
  • Построение этого списка очень медленно, из-за начальной сортировки списка файлов.
  • Этого можно избежать, используя ls -f -1 и комбинируя его с xargs для создания набора файлов, которые будет использовать rsync, или перенаправляя вывод в файл со списком файлов.
  • Передача этого списка в rsync вместо папки, заставит rsync немедленно начать работать.
  • Этот трюк с ls -f -1 для папок с миллионами файлов прекрасно описан в этой статье: http://unixetc.co.uk/2012/05/20/large-directory-causes-ls-to-hang/
1

Даже если rsync медленный (почему он медленный? может быть, -z поможет) это звучит так, как будто вы многое перенесли, так что вы можете просто продолжать попытки:

Если вы использовали --remove-source-files, вы можете продолжить, удалив пустые каталоги. --remove-source-files удалит все файлы, но оставит каталоги там.

Просто убедитесь, что вы НЕ используете --remove-source-files с --delete для выполнения нескольких проходов.

Также для увеличения скорости вы можете использовать --inplace

Если вас выгнали из-за того, что вы пытаетесь сделать это удаленно на сервере, продолжайте и запустите это в «экранном» сеансе. По крайней мере, таким образом, вы можете позволить ему работать.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .