Скажем, у меня есть машины A и B, где машина B имеет умеренно более быстрый диск, но сравнимый процессор с машиной A, все остальное - то же самое. Я выполняю большое задание Spark локально на обеих машинах, где входной набор данных слишком велик, чтобы поместиться в памяти, что приводит к использованию диска. Выполняя это большое задание Spark, я собираю системные показатели с помощью sysstat/sar. Смысл этого в том, чтобы сравнить процессоры.
Машина B способна завершить работу примерно на 10% быстрее. Я вижу, что машина B способна достичь превосходного чтения / записи сектора в секунду (на 30% больше), с более низким средним временем ответа на запросы ввода-вывода (до 250% лучше), используя sar. Я пришел к выводу, что машина B имеет несправедливое преимущество перед машиной A из-за более быстрого диска.
Мой вопрос заключается в том, как я могу определить, является ли процессор компьютера B более эффективным при использовании диска I/0, чем компьютер A? В частности, как я могу убедиться, что различия в скорости дисков не приводят к несправедливому преимуществу, чтобы провести справедливое сравнение между процессорами? Существуют ли какие-либо системные показатели, которые могли бы дать больше информации об этом?