Мы предлагаем:У нас есть:
1 базу данных MySQL(50MB)PHP 5
Прикрепление своих доменовMySQL
Предустановленные движки сайтовPerl
Место под файлы(300MB)Ruby
Бесплатно и без рекламы!
Авторизация:
e-mail: Пароль:
Забыли пароль?    Запомнить  
Все блогиВокруг хостинга → Сбой: как это было и последствия
Rss

Как все вы знаете, недавно у нас был сбой в дисковой подсистеме (частично развалился RAID массив(о нем ниже), подробнее о сбое(как это было,что случилось, как чинили и что осталось восстановить)

Хостинг работает в аварийном режиме!
Статус:
1. Сайты пользователей
2. PHP на вебхостинге
3. PHP на мастере
4. Форум
5. Вики
6. Модули PHP на мастере
7. Модули PHP на вебхосте
8. Прием/обработка заявок
9. Техническая поддержка

Подробнее в полной новости

Время около 21.00
Началось все с того, что Денис написал мне о недоступности главной, как позже выяснилось, недоступно было абсолютно все. Сервер даже не пинговался..
Пытались подключиться, но в итоге пришлось звонить в датацентр и делать запрос на перезапуск сервера.
Время около 23.00
Сервер запустился, начинается инициализация всех сервисов.
Первой поднялась главная, пока Денис занимался главной, я занимаюсь расследованием причин падения.
Время около 23.30
я выяснил причину: частично развалился RAID1 массив.

Для RAID1 массива требуется 2 жестких диска, оба диска являются копиями(зеркалами) друг друга, т.е. если выходит из строя 1 диск – все будет работать на втором,до замены первого(после замены синхронизация и работа от 2)
Оба диска разделены на 6 разделов(sda1-6 sdb1-6), из каждой пары(например sda1 sdb1) создан RAID1 массив (т.е. 6 массивов в сумме), в результате сбоя у 5 из 6 массивов отключились по зеркалу(в каждом свое).

Больше всего боялись, что вышел из строя один из дисков, но вроде бы все обошлось.
После пары минут гугления, были вновь подключены необходимые зеркала и началась синхронизация…
На время синхронизации, работа всего существенно замедлилась(ресурсоемкая задача)

Помимо Master сервера, есть еще пара серверов: вторичный DNS и собственно Webhosting

Время около 00.00
Поднялись DNS и Webhosting
Завершена синхронизация 3 из 5 массивов

Время около 00.30
Выяснилось, что упали и лежат до сих пор форум и вики, а также странно себя ведет PHP на обоих серверах(мастер и вебхостинг)
Началась пересборка PHP и всех его модулей

Время около 01.30
Завершена на 50% синхронизация самого “жирного” массива
Выяснение причин неработоспособности PHP на вебхостинге (сайты недоступны)

Время около 02.00
Сайты стали доступны, PHP работает в аварийном режиме.
Денис ушел спать.

Время около 03.00
Форум хостинга не отображает сообщения(до сих пор), просто нет вывода..
Вики мертва(данные целы)
Сайты пользователей работают(с частичным успехом, полностью заработали к 14.00)

У PHP на вебхостинге не работаеют memcache,zend,ioncube модули. Проблемы с временем выполнения PHP

На этом временно работы завершились

Вчера время около 01.00
Начались небходимые работы по обновлению Master сервера

Время около 01.30
Потребовался рестарт всего сервера
Сервер не вышел из рестарта

Время около 01.40
Звонок в ДЦ, перезапуск сервера, запуск не удался

Время около 02.30
Уже 5 звонок в ДЦ, подключение KVM, запуск сервера

Время около 03.00
Сервер частично обновлен(самое необходимое)
Статус повреждений тот же, что и на 03.00 предыдущих работ

На данный момент выясняются различия между серверами и почему на одном работает, а на другом тоже нет..

Последствия сбоя:
Даунтайм(неработоспособность) почти сутки
Неработоспособность форума и вики
Неработоспособность нескольких модулей PHP
Неработоспособность технической поддержки
Бессонная ночь для меня(даже 2)
Бессонная ночь у меня(и тогда и сегодня)


Автор: cyber01 | Дата создания: 12 февраля 2013, 19:06 UTC | 0.044


Комментарии(28)
studentkamail  12 февраля 2013, 19:44 UTC  #
0.0
Noavatar

грустно… а причину так и не нашли? Всё равно молодцы! Будем верстать свои ресурсы с каждодневными бекапами =)

cyber01  12 февраля 2013, 19:45 UTC  #
0.0
Avatar

Данные то целы, а причину за уже 2,даже 3 суток не нашел

studentkamail  12 февраля 2013, 21:12 UTC  #
0.0
Noavatar

хм… пошли глюки на сайте, блоге, админке и т.д.

cyber01  12 февраля 2013, 21:14 UTC  #
0.0
Avatar

Сейчас сервер на тех.работах.

studentkamail  12 февраля 2013, 21:19 UTC  #
0.0
Noavatar

Оки! Каждую ночь с 0000 пока не восстановите?

cyber01  12 февраля 2013, 21:25 UTC  #
0.0
Avatar

Постараюсь больше рестартов не делать..

molva832013  12 февраля 2013, 21:31 UTC  #
0.0
350

сайт работает. а чем простой пользователь может помочь?

Таня  13 февраля 2013, 04:55 UTC  #
0.0
201

До сих пор не работает сайт http://sport-combat.ru/
Посмотрите, пожалуйста.

cyber01  13 февраля 2013, 08:12 UTC  #
0.0
Avatar

Таня я не знаю,что вы у себя на сайте делали, но стоит его открыть – он начинает плодить процессы,которые буквально через минуту съедают всю оперативку

Stihotvor  13 февраля 2013, 08:59 UTC  #
0.0
201

Содержимое блога button.oxnull.net не меняется сразу после изменения в админке – не критично, выхожу с админки, тогда всё меняется. Сначала на лету менялось.. Это ж не на всегда?

cyber01  13 февраля 2013, 09:04 UTC  #
0.0
Avatar

Попробуйте очистить кеш.

Stihotvor  13 февраля 2013, 17:47 UTC  #
0.0
201

Не помогло, блог себя странно ведет… Пишу статью – она появляется со старой миниатюрой, меняю – в слайдере новая, в ленте старая. Все изменения касательно темы, превью и других мелочей появляются только после выхода с админки.. Странно… Может пересобрать блог? (Сохранить статьи, темы, код линкфида, гугл аналитикс, яндекс мастера и окснула пересобрать сайт?

cyber01  13 февраля 2013, 17:48 UTC  #
0.0
Avatar

Можно в личку доступ к админке?

Stihotvor  13 февраля 2013, 17:52 UTC  #
0.0
201

кинул

cyber01  13 февраля 2013, 18:03 UTC  #
0.0
Avatar

если я правильно вас понял,то проделал все действия аналогично вам, но проблемы не обнаружил… похоже проблема с вашей стороны…
Возможно кеш у провайдера

Stihotvor  13 февраля 2013, 18:11 UTC  #
0.0
201

хм…. плохо… спасибо за помошь

Павел  15 февраля 2013, 18:09 UTC  #
0.0
2bfe965ab5ef94a0568bc61c36b46d4c

Вот неработающее вики – проблема. Вот было предчувствие, что стоит как минимум вытащить оттуда правила и опубликовать на одной из местных страниц.

Возможно, этим стоит заняться как раз сейчас. К файлам и базе вики же есть доступ?

rednager  15 февраля 2013, 20:10 UTC  #
0.071
77657a

Денис и cyber01 – вы просто молодцы, так держать, ночи не спали, а сервер восстановили. Спасибо вам за это!

Андрей  16 февраля 2013, 18:03 UTC  #
0.0
Image

Правила то у меня есть на компе. Осталось озадачить Денис а, что бы он сделал страничку и ссылочку на неё.

cyber01  17 февраля 2013, 17:01 UTC  #
0.469
Avatar

Проблема с вики и форумом – из-за PHP,он побился,что на мастере,что на вебхосте.. переустановка не помогает…. ждем… меня

Stihotvor  17 февраля 2013, 22:14 UTC  #
0.0
201

502 Bad Gateway – блог лежит… Вы сейчас проводите тех работы или снова дух черного бита?

cyber01  17 февраля 2013, 22:22 UTC  #
0.0
Avatar

Тех.работы, чтобы днем не мучать пользователей,делаем ночью

Stihotvor  17 февраля 2013, 22:24 UTC  #
0.0
201

Оки. А то боялся, что снова сбой. Ну и то хорошо. Тогда пока дипломкой займусь.. Удачной и продуктивной ночи! Если чем помочь надо, говорите )

cyber01  17 февраля 2013, 22:25 UTC  #
0.0
Avatar

Я через полчаса спать,поэтому ненадолго я тут))

Stihotvor  17 февраля 2013, 22:31 UTC  #
0.0
201

О! Так я успею еще зайти на сайт, глянуть посещаемость и поплакать над нулевым тИЦ и ПР! Хоть перед сном испорчу настроение =)

cyber01  17 февраля 2013, 22:34 UTC  #
0.0
Avatar

При условии, что я запущу все)

Stihotvor  17 февраля 2013, 22:51 UTC  #
0.0
201

=))

cyber01  21 февраля 2013, 21:55 UTC  #
0.0
Avatar

Заработала техническая поддержка


Простите, Ваш браузер не поддерживает html5
Управление стрелками. Пробел - пауза.