Поучительные истории - учимся на чужих ошибках

Тема в разделе "Мегафлуд", создана пользователем Горбушка, 24 июл 2014.

  1. Горбушка

    Горбушка Ищу её...

    Регистр.:
    2 май 2008
    Сообщения:
    3.116
    Симпатии:
    2.130
    В соседней теме выложил пример классических ошибок хостера... Думаю, многим будет полезно, дабы не повторять, поэтому выкладываю здесь отдельно... Может кто ещё что-то расскажет

    Дело было так.
    Работал я в небольшой хостинг-компании (не будем говорить название - не прилично). Вроде как и уровень резервирования был, и качественные железки, да и назвать людей нубами язык не поворачивался - у всех опыт по 3-5 лет минимум в сфере.
    В один прекрасный день развалился рейд на одном из серверов (к счастью служебном - под сайт хостера, биллинг и прочее). Вызвали инженера, тот подключился, начал пересобирать рейд, но из-за системного сбоя были потеряны данные (подробности не дело этого топика). Естественно, инженер начал нервничать, боевой сервер же убил. Восстановил файловую систему насколько мог и побежал срочно восстанавливать резервную копию
    Кем был разработчик ПО по резервному копированию доподлинно не известно, но икалось ему долго, а его руки запихивались мысленно настолько глубоко, насколько это было возможно. Так вот, одной из кнопкой была "Сохранить принудительно", которая удаляла резервную копию (предположительно битую, кривую и т.д.) и делала новую поверх. Предполагалась её использовать при зависании процесса и т.д. Но вот этот идиот её расположил рядом с кнопкой "восстановить"... Ну действительно, чем хуже подчерк у врача, тем он профессиональнее... Исходя из этого наш кодер был гуру юзабилити... Даже кнопки "Да/нет" не было... Через секунду бекап уже плавно стирался с хардов...
    С одной стороны, явная ошибка инженера (поверьте, ругать его не надо было, он сам не знал куда деться после этого - убить всю базу клиентов), с другой - разработчик просто криворукий, с третьей - а какой идиот принял такую систему, какой тестировал? В общем, виновных как всегда было море, а уволили уборщицу (ну во-первых, чтобы не нарушать традицию перевода стрелок, а во-вторых, она за 2 недели до этого заявление написала - к дочке переезжала в другой город)...
    Восстановить всё это дело удалось через несколько часов, когда кто-то вспомнил, что я в далёком прошлом нарушил инструкции и использовал сервер бекапов для своих тестов. А тестировал я SVN... Именно в нём и сохранилась та спасительная ревизия файлов, которая и была восстановлена на сервер. Общий простой составил около 10 часов. А из-за третьей ошибки потери составили 3 картинки на главной странице, впрочем, они остались у дизайнера, который их как раз выкладывал во время всего этого сбоя.

    Мораль всего этого дела содержится в следующих событиях:
    1) Введён полный запрет на сколь-угодно критичные операции на серверах без предварительного резервирования. Пока сервер не зарезервирован, не забекаплен и не выведен из эксплуатации как положено - никто к нему не прикоснётся.
    2) На все сервера резервных копий был установлен SVN с правилом "хранить ревизию минимум 3 суток". И как бы тебе не хотелось удалить неприличную картинку своей пьяной морды на ночном дежурстве под новый год, до 3 января ты этого не сделаешь
    3) Были введены ещё ряд инструкций, правил и ограничений, которые не позволили бы этой ситуации повториться. Закуплено дополнительное оборудование на случай резервирования (на которое временно переносилось зеркало ремонтируемого сервера), переписана система бекапа и т.д. Все кнопки теперь имеют подтверждение "Да/нет", а злополучная "Да/Нет", "Точно?", "Уверены?", "Вы бухали?", "Курили?", "Ну ладно, а может быть ..."

    К чему я всё это рассказываю? К тому, что даже профи могут ошибаться и очень сильно. Всю эту историю я отписывал в ответ на просьбу рассказать как создать своего хостера.

    Есть ещё одна поучительная история, но на этот раз глупее... Купили знакомые в офис стойку под сервера, повесили несколько сервачков для 1C, файликов и прочего. Ну в общем, решили выйти на новый уровень организации IT... Кульминацией должен был стать сервер U4 за овер 100500 $$ с 2 камнями, кучей рамы и т.д. Сервер должен был заменить сразу несколько древних серверов, которые давно пара было выкинуть... Когда покупали, обратили внимание, что он заметно тяжелее максимальной нагрузки на стойку и явно длиннее... Взяли рулетку, нет, проходит. Видимо документы перепутали - бывает. Повесили полку, посадили на неё двух админов - выдерживает... Отчитались начальству, тот скрипя сердцем подписал платёжку, бухгалтер, обливаясь слезами в преддверии зарплаты, провела её...
    Через неделю доставляют аккуратно упакованную красивую коробку раза в 2 больше сервера... Внутри куча пенопласта, корпус обернут 3 слоями антидепрессанта (да, да, той самой плёнки лопающейся),покрыт плёнкой от царапин и все дырки заклеены от пыли... В общем, его до этого явно кто-то сильно любил и не хотел отдавать с завода =)
    Вскрыли, достали, скрепя сердцем запихнули в стойку (дрожащими руками - не царапать же его в первый день). Встал, идеально встал... И смотрелся красиво... Сидят, любуются... Тут один из "инженеров" заходит с сзади к серверу и на глазах белеет... Наблюдает он картинку: серввер стоит идеально, а штекеры блоков питания (их там было аж 3) закрывает та самая стойка... Один из металлических уголков, которые усиливали конструкцию, проходил аккурат там, где надо было вставлять кабеля... До всех дошло, что ошибок в документах не было... Ну берут ножовку, пропиливают дырку под кабеля - не выкидывать же теперь сервер... Встал, отлично встал...

    Проходит пару месяцев и в серверной вырубается автомат... На попытки включить не реагирует - вышибает снова. спустя несколько часов поисков увидели, что стойка заметно просела под тяжестью сервера и тот самый распиленный уголок весьма красиво "коротит" наполовину перерезанный кабель питания...
    К великому счастью, сервер не пострадал, блок питания имел какую-то внутреннюю защиту и просто вырубился. Да и автоматы в щитке сработали как и должны.

    Сейчас этот сервер стоит на подоконнике... А у админов отобрали все кактусы, чтобы поливая, случайно не полили и сервер... Все же следующие сервера были в обычных корпусах, как и офисные компы. Уже купленные сервера лежат друг на дружке на обычном строительном стеллаже, а погнутая и никуда не годная стойка стоит пустая в углу.

    Так что товарищи... Надеюсь из этих двух историй Вам стало ясно что отличает профи от начинающих - умение делать выводы и принимать меры по недопущению повторения.
     
    Serafimer, latteo, Denis_Pi и 3 другим нравится это.
  2. _sergey_

    _sergey_ Писатель

    Регистр.:
    1 окт 2008
    Сообщения:
    1.744
    Симпатии:
    1.155
    Вот не уверен, умные учатся на чужих ошибках, а дураки на своих. По идее, в штат нужно брать зануду с фантазией - обязанностиь которого будет предполагать маловероятные возможности аварий и предлагать возможности их превентивного устранения.
    в названии темы - между словами пробел надо поставить.

    И может кратко мораль излагать после каждого случая. Типа 7 раз проверь - если не сходится что-то, ещё 7 раз проверь. Оценивать теоретические аварии, не по вероятности, а по возможным потерям.

    Вообще, тема не совсем мегафлудовская. Может в комм хостинг - там посты не учитываются вроде.
     
  3. Горбушка

    Горбушка Ищу её...

    Регистр.:
    2 май 2008
    Сообщения:
    3.116
    Симпатии:
    2.130
    Да была такая зануда... Я ей был... Но этот момент как-то был пропущен... Как-то такая ситуация списывалась больше на разряд: "А если по нам метеорит упадёт и сгорит вся оптика в радиусе 80 км - как аптайм держать будем?"...
     
  4. Горбушка

    Горбушка Ищу её...

    Регистр.:
    2 май 2008
    Сообщения:
    3.116
    Симпатии:
    2.130
    Сегодня мне бекап сэкономил 199 фунтов 99 шилингов (или как там они), в общем, 199,99 Фунтов

    В общем, получил я коренной сертификат, цена которому 149 фунтов. Что это такое, почему так дорого и зачем оно нужно - опустим. Кто не знает - тому и не надо, а кто знает - тому и объяснение не нужно (бывают такие уникальные вещи, о которых нигде не написано, но все, кому нужно, о них знают).

    Естественно, было выбрано одно их самых надёжных хранилищ - моя флешка (USB 3.0 на 64 Гб, которая всегда путешествует со мной - разве что на пляж не таскаю). Шанс её потерять - нуль. Но периодически она использовалась и для других целей (винду переустановить). В качестве резервной копии был выбран резервный хард (был воткнут в комп, но даже не размечен) на домашнем компе. Уж с ним то 100% ничего случиться не могло - на него даже питание не подавалось.

    И вот на днях я переустановил винду с любимой флешки, затерев сертификат... Восстановить его невозможно, т.к. он и есть пароль на вход в админку других сертификатов... Я ломанулся на тот хард и понял, что мысля "А чего это у меня хард простаивает" была самой тупой, которая посетила мою голову...

    Так я остался и без сертификата, и без возможности его восстановить...

    Отозвать сертификат стоит 149,99, выпустить новый - ещё столько же. Но выпустить его, не отозвав предыдущий - нельзя. Можно ещё перевыпустить - это 199,00 фунтов...

    К счастью, меня спасло облако Mail.Ru, в котором лежал ключ, которым зашифрован сертификат. По этому ключу можно восстановить сертификат через службу поддержки...

    Вот так, друзья... Запомните - бекапы лишними не бывают! Не важно в скольки местах у Вас лежат бекапы - если есть возможность закинуть их ещё куда-либо - закиньте. В лучшем случае они просто так пролежат там и Вы про них забудете... В худшем - спасут Вам не одну сотню баксов...
     
    Шумадан нравится это.
  5. _sergey_

    _sergey_ Писатель

    Регистр.:
    1 окт 2008
    Сообщения:
    1.744
    Симпатии:
    1.155
    Я не уверен в надёжности облачных сервисов для хранения паролей. Знакомый в гугле хранит все. Если что сразу ко всему доступы потеряешь, взломают/сбой/потеряешь пароль доступа к хранилищу.
     
  6. latteo

    latteo Эффективное использование PHP, MySQL

    Moderator
    Регистр.:
    28 фев 2008
    Сообщения:
    1.450
    Симпатии:
    1.244
    Критичные данные перед заливкой в облако шифруем, в качестве резервирования храним в нескольких облаках
     
    Горбушка нравится это.
  7. Горбушка

    Горбушка Ищу её...

    Регистр.:
    2 май 2008
    Сообщения:
    3.116
    Симпатии:
    2.130
    В данном случае, сам ключ не представляет ценности, т.к. с его помощью нельзя получить исходный сертификат без кучи геморроя и бумажек. Но для самих SSL, которые вечером будут отправлены в облако, естественно будет создан криптоконтейнер с многократным шифрованием DES =)