Высокая доступность серверов - Обеспечение доступности наиболее важных ИТ-систем

Обеспечение доступности наиболее важных ИТ-систем 24 часа в сутки Dell R640 Dell R740 Dell R540, 7 дней в неделю и в течение всего года обеспечивает высокую доступность (сервера). Это также может быть выражено как стремление к пяти девяткам, то есть системам, которые имеют доступность 99,999%. Хотя концепция проста, на самом деле сделать это часто не так просто.

Картинки по запросу Server Rack Servers

Текущие задачи для сервера включают поиск критических систем на наличие отдельных точек отказа. Единственная точка отказа определяется как любая часть оборудования, которая, в случае сбоя, ухудшит доступность системы или сделает систему полностью недоступной. У программного обеспечения также могут быть отдельные точки отказа, но подход к их предотвращению имеет основу разработки программного обеспечения, которая иногда зависит от аппаратных функций, таких как многопоточный процессор, но чаще фокусируется на алгоритмах самовосстановления программного обеспечения. Аппаратные точки отказа обычно легче обнаружить и устранить.

Логический подход к сервера начинается с серверов и распространяется на сети. Серверы нуждаются в питании, поэтому использование ИБП поможет включить питание во время кратковременных отключений, продолжительностью не более нескольких минут. Одних ИБП недостаточно для многих работ по обеспечению высокой готовности, поэтому установлены генераторы, чтобы обеспечить работу электричества в течение, возможно, часов или дней. Это также может стать неадекватным, если генераторы не могут быть заправлены по какой-либо причине. В этой ситуации зеркалирование критически важных серверов на географическом расстоянии становится лучшим способом обеспечения доступности систем.

В наши дни большинство серверов имеют многоядерные процессоры, что в основном повышает производительность, но это также означает, что ядро ??может работать плохо, но не выводить из строя весь сервер. В какой-то момент необходимо будет решить проблему снижения производительности, и это может повлечь за собой длительное отключение, при котором критическое приложение недоступно. Хорошей практикой сервера является кластеризация двух или более серверов вместе, чтобы в случае сбоя одного из них другой мог взять на себя свою рабочую нагрузку. Отказавший сервер затем можно заменить без какого-либо заметного сбоя, за исключением, возможно, кратковременного периода, пока заменяющий сервер присоединяется к кластеру. Кластеризация также помогает при замене плохой памяти или других компонентов элемента кластера.

Почти все критические приложения требуют баз данных, и они могут стать очень большими. Вместо того чтобы хранить базы данных на простых жестких дисках, лучшим решением высокой доступности является размещение их в RАID-массивах, которые позволяют выполнять горячую замену жестких дисков в массивах. RАID-1 (зеркалирование) и RАID-5 (чередование данных и восстановление четности) являются наиболее распространенными методами RАID.

Ваши критические серверы должны иметь как минимум два сетевых подключения, что означает наличие двух сетевых карт на сервер. Исключением здесь является кластер серверов, который разделяет рабочую нагрузку между членами кластера. Каждый участник может иметь одно сетевое соединение и по-прежнему предоставлять сервера. Физические сетевые соединения также должны подключаться к различным коммутаторам, что становится важным для избежания отключений из-за отказа коммутатора.

В то время как облачные вычисления могут показаться хорошим способом, имейте в виду, что вы будете зависеть от другой организации, чтобы справиться грамотно. Помните также, что эта другая организация, вероятно, не чувствует, что ваши критические системы очень важны для ее собственной миссии. Бизнес-аналитики склонны терпеть определенный процент недовольных клиентов, если прибыль высока, и вы никогда не захотите оказаться в этой грязной ситуации. Судебные иски, даже если вы выиграли, не могут заменить компетентного сервера.

Ключом к эффективному сервера является аппаратная избыточность в ваших собственных центрах обработки данных или компьютерных залах. Если один компонент оборудования может выйти из строя и привести к выходу из строя критически важного сервера, вам необходимо иметь два или более компонентов одного и того же компонента оборудования. Идеальная ситуация - использовать аппаратное обеспечение, которое может автоматически включаться, чтобы никто не заметил сбоя, за исключением систем / администраторов сети и системного / сетевого администрирования. Вы хотите планировать наихудший сценарий, а не надеяться, что ничего не пойдет не так. Согласно закону Мерфи, все, что может пойти не так, пойдет не так.