Kad padne server

Friday, September 5th, 2008 | Općenito

Četvrtak. 16:00, lagano se spremam za doma (radim do 5). Zazvoni telefon da ima nekih problema s jednim Windows server (mislim si…  ha.. ništa novo, šta ćeš… windowsi… piiiih…..)

Kolega Windows admin krene s standardom procedurom za “kad server zaglavi” - ne pomaže. Spajam se na drek (kako ga od milja zovem, inače je DRAC - Dell Remote Accces Card, putem koje mogu rebootat mašinu i radit još što-šta) i rebootam server. Dođe mi poruka da je server off… ali ne dolazi da se digo.

Da skratim dugu priču. Raspalo se raid polje, otišo raid kontroler, zamjenili ga, raid polje se nije htjelo “rebuildat”, te sam ga morao “razbiti” i ponovno kreirati. Kolega intalirao nove Windows 2008 i krenuli restore s “off-site backup servera”. Prilikom restore-a dogodilo se 100 nepredviđenih problema i skoro ništa nije bilo “kao što smo testirali” za ovakav scenarij. (hehe)

Korisnici vrište na telefon, nema mailova, nema site-ova, nema ničeg (link). Jednom riječju katastrofa.

Restorali smo preko 100GB podataka “na ruke”. Na restoru je radilo 6 admina i nakon nekoliko neprospavanih noći vratili smo stvar u normalu.

Sad radim na novim “disaster” scenarijima i pokušavam se pripremiti za ovakve stvari u budućnost.

Uglavnom, ovo je razlog što mog posta na blogu nije bilo nešto više od tjedan dana.

A sada mali tutorial.

Sinkrono s problemimama na mojoj PADME (tako se naime zove Windows server koji je “pao”), na jednom od mojih Linuxa se napunila /var particija. I sad meni nije bilo ništa jasno.. malo sam išao istraživati, poslao par mailova kolegama adminima i tako i skužio da “yum update” zna nekad napuniti /var pariticiju s raznim glupostima i da treba pokrenuti

yum clean all

I tak…

Na raznim forumima, ljudi negoduju, govore Inside nevalja… ja uvijek moram ostat pristojan i na svaki mail/post odgovorit fino (ipak predstavljam firmu). Ovo je moj blog i mogu reći svašta što mislim.

Ovakav HW problem se desi jednom u 10 godina. Razumijem ljude koji negoduju, ali kad se stvari rade najbrže što mogu, onda brže od toga ne ide!

Moj team je odradio vrhunski posao i pokazalo se da su dečki dorasli stvarno svakom problemu. Znate onu “na muci se poznaju junaci”. A to kaj neki ne razumiju da se ovakve stvari mogu desit i da se dešavaju… a što reč osim “nek idu dalje….” ;)

4 Comments to Kad padne server

BigAnimal
06.09.2008

Ma nedaj se Care…
Pozz, Bigi

Ivan Pešo
06.09.2008

Pa neznam zašto ljudi dižu toliku muku posebno jer je windows server. Glavno je da je sve ok završilo

HaVoC|ffs
15.09.2008

Bilo bi ti jasno zasto .. kad bi imao firmu koja ima 8 podruznica i preko 50 mailova na serveru koji su neophodni za poslovanje .. i stvar crkne na cijeli dan … onda bi te vidio :)

1ONE
17.09.2008

taj tko ima toliko važnih mailova i 8 podružnica bi trebao imati duple mx recorede i ostale “điđe-baje” da izjegne nedostupnost bilo kojeg maila.

Može se lako složiti redudancija, ali to i košta.

Leave a comment

You must be logged in to post a comment.