Мне нужно сгенерировать образцы данных для моей диссертации, используя некоторый код на R/C++, который я написал. Это может быть смущающе параллельно, и я обобщил его для работы на локальных многоядерных машинах без особых проблем.
На моем Core2Duo генерация одного сэмпла занимает около 8 секунд, все они примерно одинаковы, и в идеале мне нужны миллионы или десятки миллионов, поэтому я подумал о том, чтобы добавить его на EC2 на несколько часов. Предполагая, что одно из их ядер сравнимо по производительности с моим C2D, 1-метровые выборки должны занять 2200 ядерных часов, в среднем или около 70 часов на 32-ядерном компьютере.
Я хочу выяснить, сколько времени это займет с достаточной уверенностью, поэтому я подумал, что я прыгну на бесплатный микроэкземпляр, проведу несколько тестов и предположу, что это сравнимо с более дорогими машинами. За исключением того, что задание, которое я отправил (цикл for, генерирующий 100 образцов 50 раз), должно занять <12 часов, но сейчас у меня 28 час. Это говорит о том, что либо ядра работают намного медленнее, чем я ожидал, либо мои работы имеют низкий приоритет, и я получаю неравномерную производительность.
Скажем, я заинтересован в аренде 1-3 32 основных машин на день или два. Как я могу оценить, сколько времени это может занять?