Pravidelne bad block na RAID5
Mám jeden problém so servrom. Železo je v podpise, v tomto prípade je nepodstatné (aspoň dúfam), radič je Adaptec 2420SA + 4x disky Samsung HD753LJ (750GB, 32 MB cache, 7200rpm). Disky sú aktuálne v štvordiskovej RAID5 konfigurácií. Je mi jasné se že nie sú to disky navrhované špeciálne pre servre, ale keď sme ich kupovali, tak rozpočet stačil iba na toto. A teraz k veci. Pravidelne sa stávz že niektorý disk nahlási bad block, radič to eviduje a je po srande, zrazu je diskové pole narušené, treba meniť disk. Keď som prvý krát zapájal diskové pole, nerobil som low level format, predpokladal som že niekoľkohodinovom vytváraní RAID pola sa zároveň prekontrolujú aj disky. Vtedy sa problém nevyskytol, fungoval som v pohode, až kým o mesiac mi neprišiel mail že na jednom disku je bad block a máme prúser s diskom. Tak som kúpil nový, vymenil, pole sa obnovilo fungoval som ďalej, satrý disk som odniesol domov, nahodil LLF a do dnes doma funguje bez problémov, bez chyby, takže nemôžem ho reklamovať. Situácia sa o dva mesiace opakovala. Zase som kúpil nový disk, vymenil, zase je všetko OK, už mám doma dva úplne funkčné disky ktoré ani vyreklamovať nemôžem. Za ďalšie 2-3 mesiace sa situácia opakovala, tretí disk nahlásil chybu, už som bol nasratý, ale nemienil som kupovať ďalší disk, tak som sa rozhodol že vrátim jeden z tých ktorý mi doma bez problémov funguje. Spustil som na ňom LLF, vymenil a všetko fungovalo ako má až do dnes. Zase chyba, zase by to riešila vymena diskov, ale aktuálne mám doma oba disky plné a na nový nemám prachy. Moja otázka: je toto normálne že pre BB, ktorý neskôr nemôžem nájsť sa mi zdegradfuje celé diskové pole? Dosť ma to štve že cca. každý štvrťrok chodím do serverovne. Ďalšia vec, je možné nejak donútiť na diaľku ten radič aby obnovil diskové pole na ten istý disk? Máme na servri nainštalovaný Adaptec Storage Manager, ale takúto možnosť neponúka. Keď v vymením disk, tak rebuilding sa spúšta automaticky. Nejaké nápady?
Re: Pravidelne bad block na RAID5
Vymen kabelaz, to je IMO prvni a nejlevnejsi krok. Odhadem bych rek, ze je neco spatne v kabelech/konektorech (+ vyhodit a znovu zandat radic, to taky nic nestoji).
Jestli umis remote vypnout a zapnout jeden konkretni disk, tak by mohlo zafungovat, jinak nevim, zalezi hodne na zeleze a konfiguraci. Nektery potvory si kontrolujou SN disku (to nebude tvuj pripad) a disk jednou oznacenej jako vadnej odmitaj uz "navzdy" (da se tomu pomoci zasahem primo do firmware radice).
Re: Pravidelne bad block na RAID5
No nevím jestli tě potěším, ale když jsem vybíral RAID řadič a pročítal všemožné fóra, support listy a hledal reference, ze všeho nejvíc se propírala problémovost Samsungů na RAIDu :-(
Nebudu tvrdit, že tohle je přesně ten případ (..ale pokud selže vše ostatní, je na čase si přečíst manuál), mrkni do compatibility listu jestli nejsou hlášeny problémy s těmito disky. Příp. nový firmware, v nejhorším změnit značku disků..
Re: Pravidelne bad block na RAID5
No, kabeláž vymeniť môžem, to je naozaj za pár korún, aj keď sa mi zdá byť ok, káble nie sú nikde nalomené a naozaj neviem aký by to malo ma súvis na to že radič detekuje na disku bad block.
BIOS radiča je tiež jeden z posledných, ohľadom problémov Samsungov v RAID5 som skoro nič nenašiel, a na stránke Adaptecu na výraz Samsung vôbec nič. Cez Storage Manager nemám moźnosť disk vypnúť, len jednoducho tam je výkričník a celé to je na...
No čo už, idem do práce a skúsím ešte niečo vygúgliť.
Re: Pravidelne bad block na RAID5
Veci sa majú takto. Dnes mi začal server kvôli niečomu haprovať a neodpovedal (vyzerá to na nejaký problém s Apache alebo MySQL, ešte zisťujeme) a to tak že som musel ísť do serverovne a reštartovať celý server na tvrdo, lebo okrem pingu na nič nereagoval. Nechcite vedieť ako som bol nasratý, nehovoriac o tom že som sa bál že degradované diskové pole bude to už nerozchodí. Naštastie sa všetko rozbehol s tým že sa mi chtiac/nechtiac podarilo pokazný disk znova inicializovať a pole sa obnovilo. Nie je to dokonalé lebo Storage Manager hlási že Bad Stripes: Yes, a pri diskovom poli je žltý výkričník, ale funguje to píše že Status: Optimal. Zároveň som si prezrel poštu a spísal som tabuľku o chybách, o ich časoch a diskoch. Zistil som že chyba nastáva cca. v ten istí čas v mesiaci a konkrétne sa objavuje vždy keď raz mesačne sa spustí periodic drive scan, ktorý sa nedá zamzať, len zmeniť perióda (Recurring) z mesačnej na kratšiu, prípadne na hodnotu Never. Toto som teraz nastavil, aby mi na Vianoce zase nezahlásilo chybu. Tiež som si spravil štatisku, že ne ktorom porte, atď sa objavuje chyba a zatiaľ vedie port 1, disky z jednej série a vrámci nich jeden sa už pokazil 2x (naposledy som ho vrátil späť, lebo doma bol OK). Celý vývoj aj aktuálny stav je možné vidieť v tejto tabuľke. Aktuálne rozmýšlam nad tým že tento chybný disk by som vymenil za úplne iný, konkrétne WD Caviar R3 750GB, s tým že by som postupne všetky disky vymenil za tento model.
1. Má niekto skúsenosti s kombinovaním diskov rozličnej značky v RAID 5? Alebo mám radšej kúpiť zase Samsunga s tým že potom už budem mať všetky disky z inej série?
2. Neviem nájsť na nete úplne presnú kapacitu týchto diskov. Viem že ako sa vypočítava, ale bojím sa že WD bude mať napr. o jeden megabajt menej a nebudem ho môcť použiť.
Re: Pravidelne bad block na RAID5
Osobne by som ten radic odtial vyhodil a spravil z toho softwarovy RAID1. Tam aspon vies zistit, co sa s diskami deje.
Re: Pravidelne bad block na RAID5
Hehe, to sa ti ľahko povie.
1. So SW RIAD-om nemám vôbec skúsenosti.
2. Do RAID5 som išiel kvôli kapacite diskového pola, s RAID1 by som mohol mať takú kapacitu jedine keby som kúpil 4x 1TB disky a aj tak by to bolo o trocha menej a to by bolo ešte potrebné celý systém prehodiť, prekonfigurovať a jebať sa tým. Nad týmto neuvažujem ani teoreticky.
3. Ten radič ma stál 14 tisíc, bol kupovaný preto aby slúžil. Svoju funkciu si plní, len disky tam robia neplechu. Pred tým boli v servri na tomto istom radiči 2x 250GB disky v RAID1, žiaden problém nebol.
Ja to vidím tak že:
a) disky Samsung nezvládajú nasadenie v servri (sú dosť horúce keď ich vyberám)
b) zvládajú, len som mal štastie na zlú sériu
c) z dôvodu že sa celková hrubá kapacita diskov zväčšila na šesťnásobok + zväčšila sa aj zátaž servra je aj väčšia pravdepodobnosť zlyhania (aj keď toto už je trocha moc)
Aktuálne mám možnosti to riešiť tak ako som to už písal:
a) môžem vymeniť disk za rovnaký model a dúfať že sa to nebude opakovať
b) môžem vymeníž disk za inú značku a keď sa bude chyba opakovať postupne vymením všetky disky za iné
c) nechám dlhodobo vypnutú pravidelnú kontrolu dát a budem dúfať že sa to už nebude opakovať a bude to nejako fungovať (aj keď tento problémový disk chcem skôr či neskôr určite vymeniť - SN: *73)
Re: Pravidelne bad block na RAID5
Mal som zle skusenosti so SCSI RAID radicom od Adaptecu (poskodenie filesystemu pri par zlych sektoroch na jednom disku v RAID1) - odvtedy nikomu RAID od Adaptecu neodporucam.
Mozes tie disky menit, len sa trochu obavam, ci to ten problem vyriesi. Mozno je vo firmwari (mas najnovsi?) radica nejaky bug (a nie je to nic vynimocne, firmware a BIOSy su spravidla napisane otrasne), ktory tie chyby sposobuje, mozno len s niektorymi diskami, len v nejakej konfiguracii a pod.
Re: Pravidelne bad block na RAID5
Naposledy keď som mal server doma, robil som upgrade firmware, vtedy som tam dával aktuálnu verziu z internetu, ale teraz takto na diaľku neviem aká to je presne verzia. BTW, tieto SATA raiče majú extrémne podobný BIOS, dokonca sa dodávajú ako OEM radiče pre DELL alebo IBM. Myslím si že to už majú vychytané keď skoro ten istý firmware majú skoro v každom radiči.
Re: Pravidelne bad block na RAID5
Mno Adaptec bych taky nebral, ale to už je jaksi pozdě. Jinak souhlas s e1, řadič je od toho aby sloužil, takže bych do SW RAIDu už nešel.
Ten WD WD7502ABYS má 1,465,149,168 sektorů, tak si to můžeš porovnat.
Další info a specifikace najdeš na stránkách výrobce ;)
Jinak jestli ještě můžu radit, tak bych ten test rozhodně nevypínal. Já nechávám projet verifikaci minimálně jednou do měsíce, ale jen proto, že je to na workstation, která nejede 24/7. Když potom přijdeš o disk, při rekonstrukci se můžou vyrojit nové chyby na dalších a jsi bez pole.
Možnosti toho Adaptecu neznám, ale co zkusit vypnout cache řadiče a každopádně zkusit přidat pár ventilátorů. Je možné, že při vyšších zatížení (test integrity) občas disky vyhodí blbost a řadič je odepíše.
Re: Pravidelne bad block na RAID5
http://www.hardforum.com/showthread.php?p=1032866465
Hm, toto poteší. Na štítku Samsungu som našiel info, že LBA 1,465,149,168, tak predpokladám že by som ten WD R3 mohol fungovať. Viem že toto nie je ideálne riešenie, mať iný disk, ale aspoň parametrovo sú tie disky podobné.
K tomu mi dnes server zase vyhodil disk z RAIDu, ale pre istotu teraz ten ktorý je na porte 0 a ktorý už bol raz menený, takže mám potencionálne dva problémové disky. Plánoval som server doniest zajtra na víkend domov s tým že vymením disky, cez noc otestujem a zároveň namontujem nejaké vetráky (toto bude oriešok, lebo nemám kam) ale teraz asi objednám namiesto toho Samsungu ten WD R3 a počkám ešte jeden týždeň s touto akciou. Aktuálna aj tak prebieha Rebuilding (ja som ho nespustil, asi pri reštarte sa spustil sám) takže nemôžem server vypínať. Neviem prečo jedno percento trvá cca. 10 minút. Inokedy to bolo 3x menej.
Re: Pravidelne bad block na RAID5
Prošel jsem celé téma zběžně a už je přeci jen dost pozdě, tak se omlouvám, pokud to tu už zaznělo.
Celý problém s disky může být stejného rázu, jako sem měl já. Použil jsem disky od WD, ale nebyly to RE a sem tam se mi rozsynchronizovalo pole, tak jsem otestoval "vadný" disk v jiném stroji přes WDdiag a nic, raději sem tam dal jiný (nový) disk a tento "vadný" jsem používal v PC. Tato situace se po čase opakovala zase s jiným diskem, který byl dle testů také v pořádku.
Pročetl jsem řadu diskusí a disky v RE řadě mají krom delší záruky i jednu věc: Time-limited error recovery. Myslím si, že máš stejný problém, jako jsem měl já s neRE disky v (sice softwarovém) RAID5. Takže výměnu za 750GB RE mohu jen doporučit.
Re: Pravidelne bad block na RAID5
Mám stejný problém s RADI 3 edition od WD
4 x WD5002ABYS-01B1BO + Adaptec 2420SE
zatím jsem to vyřešil SW RAIDEM.
Re: Pravidelne bad block na RAID5
Kurvadrát, toto mi ani nehovor. Už mám objednané disky. :(
Btw, aký máš BIOS radiča, a aký máš systém?
EDIT:
http://ask.adaptec.com/scripts/adapt...gQmFkIFN0cmlwZ
Re: Pravidelne bad block na RAID5
Citace:
Původně odeslal
datasejf
Mám stejný problém s RADI 3 edition od WD
4 x WD5002ABYS-01B1BO + Adaptec 2420SE
zatím jsem to vyřešil SW RAIDEM.
Tak po týdenním bezchybném provozu mi vypadly z pole všechny čtyři (viz. níže), bios v adaptecu je nejnovější (5.2.0 b15611) a provozui to pdo Debianem Etch. Jdu si dát panáka a pak to poletí.
---------------
A Fail event had been detected on md device /dev/md2.
It could be related to component device /dev/sdb1.
Faithfully yours, etc.
-----------------
A Fail event had been detected on md device /dev/md2.
It could be related to component device /dev/sdc1.
Faithfully yours, etc.
-----------------------------
A Fail event had been detected on md device /dev/md2.
It could be related to component device /dev/sdd1.
Faithfully yours, etc.
----------------------
A Fail event had been detected on md device /dev/md2.
It could be related to component device /dev/sda1.
Faithfully yours, etc.
Re: Pravidelne bad block na RAID5
Uff, tak to som na tom ešte docela dobre. Mne chodí do mailu:
Citace:
This message was generated by the Adaptec Storage Manager Agent.
Please do not reply to this message.
Event Description: One or more logical devices contain a bad stripe: controller 1.
Event Type: Warning
Keď mi vypadne disk, tak vždy iba jeden, reštartujem komp na diaľku a na ten istý disk sa všetko rebuildne. Väčšinou mi to klakne keď napr. uploadnem do Gallery2 nejaké fotky a hromadne z nich začnem generovať náhľady, atď. Jednoducho zápis veľkého množstva malých súborov, zároveň pomerne veľa prístupov na disk.
Re: Pravidelne bad block na RAID5
Mám stejné zkušenosti, když jsem používal HW RAID5, vypadával cca 1x denně vetšinou první disk, po restartu systému všechno naběhlo do normálu. Trochu s to zlepšilo, když jsem v Linuxu připojenou RAID5 složku nastavil na ReadOnly, ale vzhledem k tomu, že tam zálohuju to bylo jen na otestování. Se SW RAIDEM byl celý týden klid až včera vypadly všechny disky najednou. Opět jsem musel restartovat systém, naštěstí data se zdají zatím v pořádku. Také jsem prohledával podporu na Adaptecu, mají tam nějakou utilitu pro opravu firmwaru pro WesterDigital RAID Edition II, bohužel mám RAID Edition III, na které to použít nelze, takže nevím jestli je to řešení. V každém případě je neuvěřitelné, že oba renomovaní výrobci dělají mrtvého brouka.
Re: Pravidelne bad block na RAID5
Re: Pravidelne bad block na RAID5
Aby som to upresnil, tá hláška ktorú som citoval v prechádzajúcom príspevku nie je vypadnutý disk, vtedy mi chodí namiesto Warningu Error aj s označením disku + info že diskové pole je degradované. Vtedy po reštarte sa na ten chybný disk rebuildne diskové pole, ale to trvá cca. 5-6 hodín, čo je dosť blbé. Tento citát je iba pravidelné info o statuse diskového pola, napriek tomu že má stav Optimal. Vráj pomôže iba zrušenie a znovuvytvorenie celého diskového pola, čo je v mojom prípade dosť blbé, lebo toto diskové poel je zároveň systémové. Rozmýšlam nad tým že sa vrátim k dobre osvedčenému RAID1, len v tom prípade prídem o cca. 35% aktuálnej kapacity, zároveň pri aktuálnej zaplnenosti 1,1TB dát mi ostane uź iba cca. 350GB voľného miesta. Nie sú to dôležité dáta, ale keď už máme také pekné diskové pole... :)
Ešte uvažujem nad alternatívou RAID1 z dvoch diskov + dva JBOD.
Re: Pravidelne bad block na RAID5
... tak Adaptec se vyjádřil:
Citace:
Hello from Adaptec,
We know about an issue with WD2502ABYS, WD3202ABYS and WD5002ABYS. You must disable SSC (Spread Spectrum Clocking) on the drives. Please get with Western Digital and ask for the utility that allows to disable SSC. Please note that jumpering the drive for SSC disabled does not work.
Make sure that the latest firmware/BIOS is installed on the RAID Controller.
Od WD zatím nic nepřišlo. Na webu mají jenom popis nastavení pomocí JUMPERů, tak ještě vyčkávám.
Re: Pravidelne bad block na RAID5
Už mám doma vymenený WD R3 750GB (WD7502ABYS). Skúsim chvýlu počkať a potom uvidím, že čo ďalej. Aktuálne je disk v mojom kompe, dostane malú zaťažkávaciu skúšku vo forme sťahovania a zdielania desiatkov torrentov.
BTW: Až teraz si uvedomujem že aké tiché sú tie HD753LJ, tento WD je hlučný a ruší aj keď nepracuje.