Профилактика сервера, нужен совет

Диски обязательно проверять.. (про бэкапы вообще молчу).

Несколько раз сталкивался с тем, что FS переходила в Read-only при повреждении одного из рэйдовых дисков.

Один раз - полетели оба диска. По словам техподдержки (хз, физически доступа к ним не было, сам не проверял), сначала из строя вышел один, рэйд развалился, затем - второй, через некоторое время. Если бы вовремя заметили - даунтайма можно было бы избежать (да и потери информации были, т.к. бэкапы не самые свежие)
 
Диски обязательно проверять.. (про бэкапы вообще молчу).
Для проверки диска ребут не нужен...Это прекрасно делается как фоновая операция... Да, раза в 3, а то и в 10, медленнее - а мы куда-то спешим?

По поводу того, что посыпались 2 диска, это Хетзнер. Там все диски либо убитые в ноль, либо 1 физический, на котором 2 виртуальных поднято. Я никогда не поверю, что 2 хороших серверных диска вышли из строя друг за другом. А вот в то, что 2 диска для домашних станций разогрелись до 100 градусов и сдохли - легко. Охлаждения в Хетцзнере можно сказать и нет - мечно что-то перегреется.

Но опять же, об замене железа уже говорили, это повод для ребута, но аварийный. Лучше такого избегать профилактикой - температурные датчики, проверки памяти, хдд, проверки стабильности системы...
 
у меня две недели назад на Intergenia AG тоже оба винта почти одновременно накрылись, хард резета не делал вообще, подохли спустя два с половиной года работы, вот что им не жилось? )
всякое бывает. даже такое, что рейды рассыпаются, и даже без возмодности восстановить данные, когда, например, во время не заменили диск в массиве и рейд работае в "degraded" режиме, то есть риск выхода из строя следующего диска и потери данных.
если винты бюджетные, а нагрузка на фс стабильно-высокая, тогда надо самому мониторить состояние дисковой системы при помощи всяких smart-tools и подобных прог, потому что в начале диски, как это называют - "сыпятся", т.е. появляются не читаемые сектора, "бедблоки", число которых увеличивается - это первый признак того, что не надо ждать и что диск надо менять. к тому же, у каждой модели винта, как у запчасти к современной машине - заложено число часов работы, вращений. и если вы арендуете железо, не известно сколько проработавшее, то опять таки - s.m.a.r.t покажет, сколько уже работают диски, и можно заранее побеспокоиться о замене. в вашем случае, скорее всего арендованное железо оказалось уже доходящим.
 
Тут все советуют мониторить состояние дисковой системы, а поточнее под Centos чем это делать? Требуется ли для этого останавливать/перезагружать сервер?
 
Тут все советуют мониторить состояние дисковой системы, а поточнее под Centos чем это делать? Требуется ли для этого останавливать/перезагружать сервер?
под CentOS целая куча всевозможных утилит, которые проверяют состояние самих hdd и raid-контроллера, в который они собраны.
для мониторинга параметров smart используют Для просмотра ссылки Войди или Зарегистрируйся. Прочитать про смарт и его использование можно Для просмотра ссылки Войди или Зарегистрируйся.
это что касается аппаратной части и поверхностей накопителей. что касается мониторинга рейд-а, то тут 2а варианта:
при помощи Для просмотра ссылки Войди или Зарегистрируйся можно мониторить софтовый рейд, который часто попадается при аренде всяких бюджетных дедиков.
если же используется хороший хардварный контроллер - скажем, что это будет HP Smart Array, то необходима Для просмотра ссылки Войди или Зарегистрируйся, который
можно даже интегриовать через плагины в системы мониторинга, типа nagius.
в принципе, этого должно хватить. тема популярная, статей написано немеряно)
 
Назад
Сверху