2

Мы готовимся к аргументу относительно уровня NTP как индикатора точности времени. Утверждение, положившее начало всему этому, было:

Stratum 5 может быть четыре минуты.

Насколько я понимаю, NTP старается изо всех сил выдвигать правильное время, независимо от того, сколько прыжков (страт) у вас от авторитетных часов. Я понимаю, что чем выше число стратумов, тем выше вероятность того, что сервер времени выйдет из строя или из-за нестабильной сети произойдет некорректный расчет. Я понимаю, что нужно проверять не только слой (джиттер, задержка и т.д.), Чтобы определить, насколько точны часы. Я тоже понимаю, что должно быть 3 или 4 (или больше?) восходящие серверы времени для резервирования и статистической надежности.

Внутренне, несколько производственных систем являются стратом 5. Я не могу протянуть руку от моей тестовой системы 5-го уровня к 2-му слою, чтобы получить смещение.

ntpdate -q 1.debian.pool.ntp.org
server 208.53.158.34, stratum 0, offset 0.000000, delay 0.00000
 6 Jan 15:47:46 ntpdate[]: no server suitable for synchronization found

Но, связавшись с несколькими моими внутренними серверами уровня 3, эта разница составляет около -0,007. (Или даже меньше!)

Я ищу аргументы, которые я могу дать нетехническим менеджерам, чтобы успокоить их страхи. Прямо сейчас я склоняюсь к чему-то вроде этого.

Stratum - это всего лишь измерение количества прыжков от авторитетных часов. Наши внутренние NTP-серверы получают время от серверов уровня 2. Это довольно стандартно для всего Интернета. (В противном случае серверы уровня 1 будут перегружены. Перегруженные серверы времени сообщают о неправильном времени.) Разница между нашими внутренними серверами stratum 3 и производственными системами stratum 5 составляет примерно 7 тысяч секунд. Серверы времени Strata 3, 4 и 5 принадлежат нам и общаются через нашу сеть. Если наши внутренние серверы времени уровня 3 (используемые в качестве источника времени для всей компании) не очень точные , мы не должны беспокоиться о слое как индикаторе точности системного времени.

Я понимаю, что мне нужно, чтобы руководство заявило о допустимой неточности. (Мы не участвуем в принятии решений о жизни и смерти, мы не предоставляем услуги по времени клиентам, и мы не торгуем акциями, где секунды неточности подвергают нас большим денежным обязательствам. Из разговоров я понимаю, что 4 минуты имеют значение для некоторых отделов бизнеса. Черт возьми, четыре минуты наверняка сведут NFS с ума!)

Кто-нибудь может указать, где мои рассуждения и процесс неверны? Есть ли лучшие аргументы? Существуют ли сайты / ссылки, описывающие (не) точность времени по мере увеличения числа страт, которые я могу использовать в качестве исследования?

1 ответ1

2

Как вы заявили, stratum измеряет только количество прыжков с сервера, который претендует на надежность. Если вы используете надежные серверы с хорошим подключением, вы вряд ли будете далеко от стандартного времени. Ваши выводы верны. Точность вашего сервера времени зависит от ваших серверов с самым низким уровнем. Я бы согласился с твоим утверждением, оно хорошо подводит итог.

Суммируйте задержку плюс смещение для всех страт, чтобы получить наихудшую дисперсию. Это предполагает максимально асимметричное время передачи по сети. Это должно быть меньше секунды на уровне 5. Внутренне вам нужно учитывать только смещение от ваших серверов уровня 3 (которые должны быть равноправными). Это кажется очень низким в вашей сети.

Ваши серверы уровня 3 должны иметь возможность сообщать данные для своих серверов уровня 2. Я подключаюсь к серверам времени через туннель IPv6 и задержка составляет от 35 до 70 мс. Смещения менее 4 мс. Время опроса составляет 1024 секунды (около 17 минут).

В корпоративной сети я ожидаю, что серверы, использующие NTP, будут синхронизироваться с точностью до нескольких сотых долей секунды. Похоже, что ваша организация достигла этого, я испытал смещения минут, но они произошли на серверах, которые не синхронизировались. Существует ряд программ, которые могут отслеживать NTP-серверы и сообщать о наличии проблем.

Флаги, которые нужно исследовать, включают в себя:

  • Высокое смещение (в течение нескольких миллисекунд.)
  • Низкое время опроса на сервере. (Это нормально вскоре после запуска, но должно быстро возрасти до 1024).
  • Высокий джиттер (хотя он может быть несколько выше, чем смещение).
  • Большая задержка (зависит от расстояния, но обычно составляет несколько сотых секунды.
  • Значения достижимости, отличные от 377, на сервере, работающем более 10 минут.

Я отбрасываю серверы, которые показывают более одного или двух из этих флагов.

Внутри сети все эти значения должны быть очень низкими, и количество слоев не должно быть существенным фактором. До тех пор, пока уровень остается ниже страты, назначенной для страты локальных часов, не должно допускаться значительных временных различий.

Я обследовал системы с серверами уровня 1, которые сообщали о нерабочих днях в правильное время. Они, вероятно, использовали местные часы без фактора выдумки. (Я использую 10, но считаю любой уровень выше 8 подозрительным.) К счастью, вы можете выбрать серверы времени.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .