errori del disco nel mondo reale: che cosa MTBF di 1 milione di ore significa per te?
Dalla quinta Conferenza USENIX su File e Storage Technologies
Troviamo anche elementi di prova, sui documenti di sostituzione del disco nel campo, che tasso di fallimento non è costante con l'età, e che, piuttosto che un neonato effect mortalità significativo, vedere un early insorgenza significativa di degrado-out di usura. Cioè, i tassi di sostituzione nei nostri dati in costante crescita con l'età, un effetto spesso non assunto per impostare fino a quando dopo una vita nominale di 5 anni.
È interessante notare che, osserviamo una piccola differenza dei tassi di sostituzione tra SCSI, FC e SATA, eventualmente, indicazione che i fattori disk-indipendenti, quali condizioni di esercizio, riguardano i tassi di sostituzione più di componente fattori specifici. Al contrario altra parte, vediamo solo un esempio di un cliente di rigetto di una intera popolazione di dischi come un lotto difettoso, in questo caso perché di media tassi di errore, and presente istanza coinvolti disks SATA.
Tempo tra la sostituzione, un proxy per il tempo tra i guasti, non è ben modellati da una distribuzione esponenziale e presenta livelli significativi di correlazione, tra cui autocorrelazione e di dipendenza a lungo raggio.
1 Motivazioni
Nonostante i grandi sforzi, sia nell'industria e nelle università, l'alta affidabilità rimane una sfida importante nella gestione di grandi sistemi IT, e prevenzione delle catastrofi e il costo dei disastri effettivi costituiscono una grande frazione del costo totale di proprietà. Con i cluster di server sempre più grandi, il mantenimento di elevati livelli di affidabilità e disponibilità è un problema crescente per molti siti, compresi i sistemi di calcolo ad alte prestazioni e fornitori di servizi internet. Un problema particolarmente importante è l'affidabilità dei sistemi di storage, per diverse ragioni. In primo luogo, il fallimento di stoccaggio non solo possono causare temporanee indisponibilità dei dati, ma nel peggiore dei casi può portare a perdite di dati. In secondo luogo, le tendenze della tecnologia e le forze di mercato possono combinare a fare errori di sistema di stoccaggio si verificano più frequentemente in futuro [ 24 ]. Infine, la dimensione dei sistemi di storage in moderni, su larga scala impianti è cresciuto fino a una scala senza precedenti con migliaia di dispositivi di storage, rendendo guasti la norma piuttosto che l'eccezione [ 7 ].
Su larga scala dei sistemi IT, pertanto, necessitano di una migliore progettazione del sistema e di gestione di far fronte alle più frequenti fallimenti. Ci si potrebbe aspettare crescenti livelli di ridondanza adatto per le modalità di guasto specifico [ 3 , 7 ], per esempio. tali disegni e sistemi di gestione sono basati su modelli molto semplici di guasto dei componenti e processi di riparazione [ 22 ]. Una migliore conoscenza sulle proprietà statistiche dei processi di fallimento di archiviazione, come ad esempio la distribuzione del tempo tra fallimenti, può autorizzare i ricercatori e progettisti per sviluppare nuovi sistemi di storage più affidabile e disponibile.
Purtroppo, molti aspetti di errori del disco in sistemi reali non sono ben compresi, probabilmente perché i proprietari di tali sistemi sono restii a rilasciare dati fallimento o non raccogliere tali dati. Come risultato, i medici di solito contare su fornitori specificati i parametri, come il tempo medio prima del guasto (MTTF), per modellare i processi di fallimento, anche se molti sono scettici riguardo l'esattezza di tali modelli [ 4 , 5 , 33 ]. Troppo accademica e di ricerca aziendale si basa su aneddoti e retro della busta calcoli, piuttosto che dati empirici [ 28 ].
Le operazioni di questo documento è parte di un'agenda di ricerca più ampio con l'obiettivo a lungo termine of fornire una migliore conoscenza di fallimenti nel settore IT systems da raccogliere, analizzare e rendere pubblicamente disponibile un insieme diversificato di storie fallimento real from sistemi di produzione su larga scala. Nella nostra ricerca, abbiamo parlato a una serie di siti di produzione di grandi dimensioni e sono riusciti a convincere molti di loro di fornire i dati fallimento da alcuni dei loro sistemi.
In questo lavoro forniamo un'analisi di sette insiemi di dati che abbiamo raccolto, con un focus sui fallimenti storage. I set di dati provengono da una serie di sistemi di produzione su larga scala, compresi i siti high-performance computing e grandi servizi di siti internet, e sono costituite principalmente da sostituzione dell'hardware tronchi. I gruppi di dati variano in durata da un mese a cinque anni e coprono in totale una popolazione di oltre 100.000 unità da almeno quattro diversi fornitori. I dischi di cui alla presente i dati includono le unità con le interfacce SCSI e FC, comunemente rappresentato come il più affidabile tipi di unità disco, così come drive con interfaccia SATA, comune nei sistemi desktop e nearline. Anche se 100 mila unità è un grande campione molto relativa a studi pubblicati in precedenza, è piccola rispetto alla stima 35 milioni le unità aziendali, e 300 milioni di unità totale costruito nel 2006 [ 1 ]. Fenomeni come le partite male causato dai cambiamenti linea di fabbricazione possono richiedere dati molto più grande set per caratterizzare completamente.
Analizziamo tre diversi aspetti dei dati. Si inizia nella Sezione 3 chiedendo in che modo le frequenze di sostituzione del disco confronta con le frequenze di sostituzione di altri componenti hardware. Nella Sezione 4 , forniamo un'analisi quantitativa dei tassi di sostituzione del disco osservato nel campo e confrontare con le nostre osservazioni e di modelli predittivi comune utilizzato dai venditori. Nella sezione 5 , si analizzano le proprietà statistiche dei tassi di sostituzione del disco. Noi correlazioni di studio tra le sostituzioni del disco e individuare le proprietà fondamentali della distribuzione empirica di tempo tra sostituzioni, e confrontare i nostri risultati di modelli comuni e le ipotesi. La sezione 6 fornisce una panoramica dei lavori connessi e la sezione 7 si conclude.
|
2 Metodologia
2.1 Che cosa è un errore del disco?
Anche se spesso si pensa che errori del disco seguono un fail-stop modello semplice (in cui i dischi o funziona perfettamente o non riescono assolutamente e in modo facilmente rilevabili [ 22 , 24 ]), errori del disco sono molto più complesse nella realtà. Ad esempio, unità disco possono sperimentare i difetti settore latente o problemi di prestazioni transitorie. Spesso è difficile attribuire correttamente la causa principale di un problema a un componente hardware particolare.
Il nostro lavoro si basa sui documenti di sostituzione hardware e log, cioè ci concentriamo sulle condizioni del disco che portano un cliente drive di trattare un disco come definitivamente fallito e per sostituirlo. Analizziamo i record da un certo numero di sistemi di produzione di grandi dimensioni, che contengono una registrazione per ogni disco che è stato sostituito nel sistema durante il tempo della raccolta dei dati. Per interpretare i risultati del nostro lavoro correttamente è fondamentale per comprendere il processo di come questi dati è stato creato. Dopo un disco è identificato come il probabile colpevole in un problema, il personale operativo (o il sistema del computer stesso) eseguire una serie di test sul disco per valutare il suo comportamento. Se il comportamento si qualifica come difettosi secondo la definizione del cliente, il disco viene sostituito e una voce corrispondente è fatto nel registro di sostituzione dell'hardware.
La cosa importante da notare è che non c'è una definizione unica per quando un disco è difettoso. In particolare, i clienti e fornitori possono utilizzare definizioni diverse. Ad esempio, un modo comune per un cliente di testare un disco è quello di leggere tutti i suoi settori per verificare se si legge problemi, e decidere che è difettoso se una operazione richiede più tempo di una certa soglia. Il risultato di tale test dipenderà da come le soglie sono scelti. Molti siti seguire un "meglio prevenire che curare" mentalità, e di utilizzare il test più rigorosi. Come risultato, non si può escludere che un cliente può dichiarare un disco difettoso, mentre il suo produttore lo vede come sani. Questo significa anche che la definizione di "difettosa" che un cliente utilizza drive non necessariamente compatibile con la definizione che un produttore del disco usa per fare proiezioni affidabilità dell'unità. In effetti, un venditore di dischi ha riferito che per il 43% di tutti i dischi restituiti dai clienti che trovano nessun problema con il disco [ 1 ].
E 'anche importante notare che il comportamento di guasto di un drive dipende dalle condizioni di esercizio, e non solo su fattori livello di componente. Ad esempio, i tassi di fallimento sono influenzati da fattori ambientali, come temperatura e umidità, data center gestire le procedure, dei carichi di lavoro e di "cicli" o acceso modelli di ore.
Ci piace anche sottolineare che il comportamento di guasto di unità disco, anche if the sono del modello stesso, can differ, dato che i dischi sono prodotti utilizzando processes e parti che possono cambiare. Questi cambiamenti, come un cambiamento nel firmware di un'unità di uno o componente hardware o anche the catena di montaggio in cui è stato prodotto un disco, can the cambiare comportamento failure di un disco. Questo effetto è spesso chiamato l'effetto di lotti o vintage. Un lotto difettoso può portare a tassi di guidare insolitamente elevati tassi di guasto o insolitamente elevato di errori dei media. Ad esempio, nei dati HPC3 set (Tabella 1 ), il cliente aveva 11.000 unità SATA sostituito in ottobre 2006 dopo aver osservato una frequenza elevata di errori dei media durante la scrittura. Anche se ci sono voluti un anno per risolvere, il cliente e venditore hanno convenuto che queste unità non soddisfano le condizioni di garanzia. La causa fu attribuita alla rottura di un lubrificante leader a testa inaccettabilmente alto di volo altezze. Nei dati, le sostituzioni di queste unità non sono registrati come fallimenti.
Nella nostra analisi non abbiamo ulteriormente studiare l'effetto dei lotti. Riportiamo l'esperienza sul campo, in termini di tassi di sostituzione del disco, di una serie di clienti di unità. I clienti di solito non hanno le informazioni necessarie per determinare quali dei dischi che stanno utilizzando provengono dalle partite uguali o diverse. Poiché il nostro abbraccia dati un gran numero di unità (oltre 100.000) e viene da un insieme diversificato di clienti e dei sistemi, l'abbiamo assume comprende anche una serie diversificata di fornitori, modelli e lotti. Abbiamo quindi ritengono improbabile che i nostri risultati sono significativamente distorta da "lotti cattivo". Tuttavia, la cautela non il lettore ad assumere tutte le unità si comportano in modo identico.
Specifica di 2,2 affidabilità del disco e la frequenza di fallimento
produttori di unità di specificare l'affidabilità dei loro prodotti in termini di due parametri correlati: il fallimento tasso annuale (AFR), che è la percentuale di unità disco in una popolazione che non riescono in un test a una scalata di stima per l'anno; e il tempo medio di guasto (MTTF). The AFR di un nuovo prodotto è tipicamente stimato sulla base di vita accelerato e stress test o sulla base di dati sul campo dai prodotti precedenti [ 2 ]. L'MTTF è stimato come il numero di ore di accensione / anno diviso per il AFR. Si ritiene comunemente per i drive in server è che sono alimentati al 100% del tempo. Il nostro insieme di dati tutti i fornitori di credere che i loro dischi sono accesi e in uso in ogni momento. Il MTTFs specificato per i dischi più alta qualità oggi vanno da 1.000 mila ore a 1.500.000 ore, corrispondenti a AFRs del 0,58% a 0,88%. L'AFR MTTF e le stime del costruttore sono inclusi nel drive il foglio di dati A e ci riferiamo a loro nel resto come il foglio di dati e di AFR il datasheet MTTF.
Al contrario, nella nostra analisi dei dati che segnaleremo il tasso di sostituzione annuale (ARR) per riflettere il fatto che, a rigore, sostituzioni disk che sono riportati nel cliente accede do equal disco failures necessariamente not (come spiegato nella sezione 2,1 ).
2,3 Fonti dei dati
La tabella 1 fornisce una panoramica dei sette serie di dati utilizzati in questo studio. Insiemi di dati HPC1, HPC2 e HPC3 sono stati raccolti in tre sistemi di cluster di grandi dimensioni a tre organizzazioni diverse, che utilizzano i supercomputer. Insieme di dati HPC4 stati raccolti su decine di siti gestiti in modo indipendente HPC, tra cui i siti di supercalcolo e commerciali siti HPC. Insiemi di dati COM1, COM2 e COM3 sono stati raccolti in almeno tre diversi sistemi di cluster in un grande fornitore di servizi Internet con molti distribuita e gestita separatamente siti. In tutti i casi, i nostri rapporti dati su solo una parte dei sistemi informatici gestiti da ciascuna organizzazione, come deciso e selezionati da nostre fonti.
E 'importante notare che per alcuni sistemi il numero di unità nel sistema di cambiata in modo significativo durante il periodo di raccolta dei dati. Mentre la tabella fornisce solo il numero di disco a fine of periodo di raccolta dei dati, la nostra analisi nel resto dei conti la carta per la data effettiva di these changes in il number di unità. In secondo luogo, alcuni log anche eventi diversi record sostituzioni, e quindi il numero di eventi del disco riportato nella tabella non è necessariamente uguale al numero di sostituzioni o fallimenti. I valori di ARR per i set di dati non possono quindi essere direttamente calcolato dalla Tabella 1 .
Qui di seguito descriviamo ogni insieme di dati e per l'ambiente da cui proviene più in dettaglio.
HPC1 è un registro di cinque anni di sostituzioni hardware raccolto da un nodo di 765 cluster computing ad alte prestazioni. Ciascuno dei 765 nodi è un 4-way SMP con 4 GB di memoria e 3-4 18GB 10K rpm dischi SCSI. Di questi nodi, 64 nodi vengono usati come filesystem che contiene, oltre alle 3:57 drive 18GB, 36GB 10K rpm 17 dischi SCSI. Le applicazioni in esecuzione sul sistema sono in genere simulazioni scientifiche su larga scala o di visualizzazione. I dati contiene, per ogni sostituzione dell'hardware che è stata registrata nel corso della durata cinque anni di questo sistema, quando il problema è iniziato, che il nodo e che è stata colpita componente hardware, e una breve descrizione delle azioni correttive.
HPC2 è un record di sostituzioni disco osservato sui nodi di calcolo di un cluster di 256 nodi HPC. Ogni nodo è un 4-way SMP con 16 GB di memoria e contiene due 36GB 10K rpm dischi SCSI, tranne che per otto dei nodi, che contengono otto 36GB 10K RPM SCSI ciascuno. Le applicazioni in esecuzione sul sistema sono in genere simulazioni scientifiche su larga scala o di visualizzazione. Per ogni sostituzione del disco, il set di dati registra il numero del nodo interessato, l'orario di inizio del problema, e il numero di slot del disco sostituito.
HPC3 è un record di sostituzioni disco osservato su un cluster di 1.532 nodi HPC. Ogni nodo è dotato di otto CPU e 32GB di memoria. Ogni nodo, ad eccezione di quattro nodi di accesso, dispone di due dischi da 146 GB 15K rpm SCSI. Inoltre, 11.000 unità da 250 GB 7200 rpm SATA sono utilizzati in un filesystem condiviso esterno e 144 73GB 15K rpm dischi SCSI sono utilizzati per i metadati del file system. Le applicazioni in esecuzione sul sistema sono in genere simulazioni scientifiche su larga scala o di visualizzazione. Per ogni sostituzione del disco, il set di dati record il giorno della sostituzione.
I dati HPC4 set è un registro di servizio di garanzia di sostituzione del disco. Esso copre tre tipi di unità SATA utilizzati in dozzine di gestione distinta cluster HPC. Per il primo tipo di drive, i dati si estende su tre anni, per gli altri due tipi si estende per poco meno di un anno. Le registrazioni dei dati, per ciascuno dei 13.618 unità, quando fu inviato e quando (se mai) è stato sostituito in campo.
COM1 è un registro di errori hardware registrati da un provider di servizi Internet e di disegno da più siti distribuiti. Ogni record nei dati contiene un timestamp di quando il fallimento è stato riparato, l'informazione on i sintomi fallimento, e un elenco di misure che were adottate per diagnosticare e riparare the problema. I dati non contengono informazioni su quando ogni errore è effettivamente accaduto, solo quando la riparazione ha avuto luogo. I dati riguardano una popolazione di 26.734 giri / min 10K unità disco SCSI. Il numero totale di server nei siti monitorati non è nota.
COM2 è un registro di servizio di garanzia di guasti hardware registrato a nome di un provider di servizi Internet aggregando eventi in più siti distribuiti. Ogni record contiene un codice di guasto di riparazione (ad esempio "Sostituire il disco fisso") e il momento in cui la riparazione era finito. Anche in questo caso non ci sono informazioni sul tempo di inizio di ogni fallimento. Il registro non contiene voci relative a guasti di dischi che sono stati sostituiti nel sito del cliente per la sostituzione a caldo in un disco di ricambio, poiché i dati è stato creato dal trattamento di garanzia, che non partecipa on-site sostituzione hot-swap. Per tener conto della sostituzione del disco mancante abbiamo ottenuto dei numeri per la ricostituzioni periodiche di dischi di ricambio in loco dal fornitore di servizi Internet. La dimensione del sistema sottostante cambiato significativamente durante il periodo di misura, a partire da 420 server nel 2004 e termina con 9.232 server nel 2006. Abbiamo ottenuto trimestrale record acquisto di hardware che copre questo arco di tempo di valutare la dimensione della popolazione disco nella nostra analisi ARR.
I dati COM3 set viene da un sistema di grande capacità di stoccaggio esterni utilizzati da un provider di servizi Internet e comprende quattro popolazioni di diversi tipi di dischi FC (vedi Tabella 1). Anche se questi dati sono stati raccolti nel 2005, il sistema ha alcune componenti legacy che erano vecchi come dal 1998 ed erano noti per essere stati spostati fisicamente dopo l'installazione iniziale. Non abbiamo incluso questi "obsoleti" sostituzione del disco della nostra analisi. COM3 differenzia dal set di altri dati, in quanto prevede solo statistiche aggregate di errori del disco, piuttosto che singoli record per ogni fallimento. I dati contiene i conti di dischi che non è riuscita e sono stati sostituiti nel 2005 per ognuna delle quattro popolazioni disco.
2,4 metodi statistici
Si caratterizzano la distribuzione empirica utilizzando due parametri d'importazione: la media e il coefficiente di variazione al quadrato (C 2). Il coefficiente di variazione al quadrato è una misura della variabilità di una distribuzione ed è definita come la deviazione standard al quadrato divisa per la media al quadrato. Il vantaggio di utilizzare il coefficiente di variazione al quadrato, come misura di variabilità, piuttosto che la varianza o la deviazione standard, è che si è normalizzata per la media, e permette quindi il confronto della variabilità tra distribuzioni con mezzi diversi.
Consideriamo anche la funzione di distribuzione cumulativa empirica (CDF) e quanto bene sia idoneo da quattro distribuzioni di probabilità di uso comune, in teoria, affidabilità: la distribuzione esponenziale, la distribuzione di Weibull, la distribuzione gamma, e la distribuzione lognormale. Noi parametrizzare le distribuzioni attraverso stima di massima verosimiglianza e valutare la bontà di adattamento mediante ispezione visiva, il negativo di log-verosimiglianza e test chi-quadro.
Si discuterà anche del tasso di rischio della distribuzione del tempo tra sostituzioni. In general, the hazard rate of a random variable t with probability distribution f(t) and cumulative distribution function F(t) is defined as [ 25 ]
Intuitively, if the random variable t denotes the time between failures, the hazard rate h(t) describes the instantaneous failure rate as a function of the time since the most recently observed failure. An important property of t ’s distribution is whether its hazard rate is constant (which is the case for an exponential distribution) or increasing or decreasing. A constant hazard rate implies that the probability of failure at a given point in time does not depend on how long it has been since the most recent failure. An increasing hazard rate means that the probability of a failure increases, if the time since the last failure has been long. A decreasing hazard rate means that the probability of a failure decreases, if the time since the last failure has been long.
The hazard rate is often studied for the distribution of lifetimes. It is important to note that we will focus on the hazard rate of the time between disk replacements , and not the hazard rate of disk lifetime distributions.
Since we are interested in correlations between disk failures we need a measure for the degree of correlation. The autocorrelation function (ACF) measures the correlation of a random variable with itself at different time lags l . The ACF, for example, can be used to determine whether the number of failures in one day is correlated with the number of failures observed l days later. The autocorrelation coefficient can range between 1 (high positive correlation) and -1 (high negative correlation). A value of zero would indicate no correlation, supporting independence of failures per day.
Another aspect of the failure process that we will study is long-range dependence. Long-range dependence measures the memory of a process, in particular how quickly the autocorrelation coefficient decays with growing lags. The strength of the long-range dependence is quantified by the Hurst exponent. A series exhibits long-range dependence if the Hurst exponent, H, is .5 < H < 1 . We use the Selfis tool [ 14 ] to obtain estimates of the Hurst parameter using five different methods: the absolute value method, the variance method, the R/S method, the periodogram method, and the Whittle estimator. A brief introduction to long-range dependence and a description of the Hurst parameter estimators is provided in [ 15 ].
3 Comparing disk replacement frequency with that of other hardware components
Table 3: Relative frequency of hardware component replacements for the ten most frequently replaced components in systems HPC1, COM1 and COM2, respectively. Abbreviations are taken directly from service data and are not known to have identical definitions across data sets.
The reliability of a system depends on all its components, and not just the hard drive(s). A natural question is therefore what the relative frequency of drive failures is, compared to that of other types of hardware failures. To answer this question we consult data sets HPC1, COM1, and COM2, since these data sets contain records for all types of hardware replacements, not only disk replacements. Table 3 shows, for each data set, a list of the ten most frequently replaced hardware components and the fraction of replacements made up by each component. We observe that while the actual fraction of disk replacements varies across the data sets (ranging from 20% to 50%), it makes up a significant fraction in all three cases. In the HPC1 and COM2 data sets, disk drives are the most commonly replaced hardware component accounting for 30% and 50% of all hardware replacements, respectively. In the COM1 data set, disks are a close runner-up accounting for nearly 20% of all hardware replacements.
While Table 3 suggests that disks are among the most commonly replaced hardware components, it does not necessarily imply that disks are less reliable or have a shorter lifespan than other hardware components. The number of disks in the systems might simply be much larger than that of other hardware components. In order to compare the reliability of different hardware components, we need to normalize the number of component replacements by the component's population size.
Unfortunately, we do not have, for any of the systems, exact population counts of all hardware components. However, we do have enough information in HPC1 to estimate counts of the four most frequently replaced hardware components (CPU, memory, disks, motherboards). We estimate that there is a total of 3,060 CPUs, 3,060 memory dimms, and 765 motherboards, compared to a disk population of 3,406. Combining these numbers with the data in Table 3 , we conclude that for the HPC1 system, the rate at which in five years of use a memory dimm was replaced is roughly comparable to that of a hard drive replacement; a CPU was about 2.5 times less often replaced than a hard drive; and a motherboard was 50% less often replaced than a hard drive.
Table 2: Node outages that were attributed to hardware problems broken down by the responsible hardware component. This includes all outages, not only those that required replacement of a hardware component.
| ||||||||||||||
The above discussion covers only failures that required a hardware component to be replaced. When running a large system one is often interested in any hardware failure that causes a node outage, not only those that necessitate a hardware replacement. We therefore obtained the HPC1 troubleshooting records for any node outage that was attributed to a hardware problem, including problems that required hardware replacements as well as problems that were fixed in some other way. Table 2 gives a breakdown of all records in the troubleshooting data, broken down by the hardware component that was identified as the root cause. We observe that 16% of all outage records pertain to disk drives (compared to 30% in Table 3 ), making it the third most common root cause reported in the data. The two most commonly reported outage root causes are CPU and memory, with 44% and 29%, respectively.
For a complete picture, we also need to take the severity of an anomalous event into account. A closer look at the HPC1 troubleshooting data reveals that a large number of the problems attributed to CPU and memory failures were triggered by parity errors, ie the number of errors is too large for the embedded error correcting code to correct them. In those cases, a simple reboot will bring the affected node back up. On the other hand, the majority of the problems that were attributed to hard disks (around 90%) lead to a drive replacement, which is a more expensive and time-consuming repair action.
Ideally, we would like to compare the frequency of hardware problems that we report above with the frequency of other types of problems, such software failures, network problems, etc. Unfortunately, we do not have this type of information for the systems in Table 1 . However, in recent work [ 27 ] we have analyzed failure data covering any type of node outage, including those caused by hardware, software, network problems, environmental problems, or operator mistakes. The data was collected over a period of 9 years on more than 20 HPC clusters and contains detailed root cause information. We found that, for most HPC systems in this data, more than 50% of all outages are attributed to hardware problems and around 20% of all outages are attributed to software problems. Consistently with the data in Table 2 , the two most common hardware components to cause a node outage are memory and CPU. The data of this recent study [ 27 ] is not used in this paper because it does not contain information about storage replacements.
4 Disk replacement rates
4.1 Disk replacements and MTTF
Nel seguito, studiamo come l'esperienza di campo con sostituzioni disco a fronte di specifiche foglio di dati di affidabilità del disco. La Figura 1 mostra il foglio di dati AFRs (solido orizzontale e in linea tratteggiata), il ARRS osservati per ciascuna delle sette serie di dati e la media ponderata ARR per tutti i dischi meno di cinque anni (linea tratteggiata). Per HPC1, HPC3, HPC4 e COM3, che coprono diversi tipi di dischi, il grafico contiene diversi bar, una per ogni tipo di disco, in-a-destra da sinistra della parte superiore verso il basso le voci corrispondenti nella tabella 1 . Poiché a questo punto non ci interessa in effetti wearout dopo la fine del ciclo di vita nominale di un disco, abbiamo incluso nella Figura 1 i dati solo per le unità all'interno del loro ciclo di vita nominale di cinque anni. In particolare, non includono un bar per il quarto tipo di unità in COM3 (cfr. tabella 1 ), che sono stati dispiegati nel 1998, e più di sette anni, alla fine della raccolta dei dati. Questi probabilmente "obsoleti" i dischi vissuto un ARR, durante il periodo di misura, del 24%. Poiché queste unità sono ben al di fuori durata nominale del fornitore per i dischi, non è sorprendente che i dischi potrebbero essere esaurendo. Tutte le altre unità sono state nel loro corso della vita nominale e sono inclusi nella figura.
La Figura 1 mostra una significativa discrepanza tra il ARR osservato e l'AFR il foglio di dati per tutti i set di dati. Mentre il AFRs datasheet sono tra 0,58% e 0,88%, la gamma osservata ARRS dal 0,5% ad un massimo di 13,5%. Cioè, il ARRS osservata da set di dati e tipo, sono fino a un fattore 15 superiore a quello AFRs datasheet.
Più comunemente, i valori osservati sono ARR nel range del 3%. Ad esempio, i dati per HPC1, che copre quasi esattamente tutta la vita nominale di cinque anni, una mostra ARR del 3,4% (nettamente superiore al AFR datasheet del 0,88%). ARR media di tutte le serie di dati (ponderata per il numero di unità in ogni insieme di dati) è 3,01%. Anche dopo la rimozione di tutti i dati COM3, che espone la più alta ARRS, ARR media è stata ancora 2,86%, 3,3 volte superiore a quello 0,88%.
E 'interessante osservare che per questi dati set non ci siano discrepanze significative tra i tassi di sostituzione per i drives SCSI e FC, spesso rappresentati con il types most affidabile di unità disco e unità SATA, spesso descritto come una qualità inferiore. Per esempio, il ARRS di unità nel set di dati HPC4, che sono esclusivamente SATA, sono tra i più bassi di tutti gli insiemi di dati. Inoltre, i dati HPC3 set comprende sia SCSI e SATA (come parte dello stesso sistema in ambiente operativo stesso) e hanno tassi di sostituzione quasi identici. Naturalmente, questi dischi rigidi SATA HPC3 sono stati dismessi a causa di tassi di errore media attribuita alla ripartizione lubrificante (richiamo sezione 2,1 ), la nostra unica testimonianza di una partita brutta, forse più i dati così è necessaria per comprendere meglio l'impatto delle partite in termini di qualità complessiva.
E 'anche interessante osservare che le unità che hanno un solo ARR osservato al di sotto della AFR il foglio di dati sono il tipo, secondo e terzo set di dati in unità HPC4. Una ragione plausibile potrebbe essere che questi sono relativamente nuove unità, a meno di un anno di età (Tavola richiamo 1 ). Inoltre, questi sono basati su ARRS solo 16 sostituzioni, forse dati troppo poco per trarre una conclusione definitiva.
Una domanda sorge naturale: perché sono osservati tassi di sostituzione del disco in modo molto più elevato nel campo dati che il foglio di dati MTTF suggerisce, anche per le unità nei primi anni di attività. Come illustrato nei paragrafi 2,1 e 2,2 , ci sono molteplici ragioni possibili.
In primo luogo, clienti e fornitori potrebbe non essere sempre d'accordo sulla definizione di quando un disco è "difettosa". Il fatto che un disco è stato sostituito implica che essa non avrebbe certo (eventualmente specifiche del cliente) prova di salute. Quando un test di salute è conservatore, potrebbe portare a sostituzione di un disco che i test venditore avrebbe trovato per essere sano. Si noti, tuttavia, che anche se ridurre la portata del ARRS in Figura 1 al 57% del loro valore reale, per stimare la frazione di unità restituite al produttore che non la salute dei test di quest'ultimo il [ 1 ], le stime AFR risultanti sono ancora più di un fattore superiore a quello di due AFRs il foglio di dati nella maggior parte dei casi.
In secondo luogo, MTTFs il foglio di dati sono in genere determinati in base accelerata (stress) le prove, che rendono alcune ipotesi circa le condizioni operative previste per i dischi saranno utilizzati (ad esempio, che la temperatura resterà sempre al di sotto una certa soglia), i carichi di lavoro e di "cicli" o acceso modelli di ore, e che i dati di alcune procedure centro di lavorazione sono seguite. In pratica, le condizioni di funzionamento potrebbe non essere sempre come ideale, come ipotizzato nel test usati per determinare MTTFs datasheet. Una discussione più dettagliata dei fattori che possono contribuire a creare un divario tra le attese e l'affidabilità dell'unità misurata è data da Elerath e Shah [ 6 ].
Di seguito riassumiamo le principali osservazioni di questa sezione.
Osservazione 1: variazione tra MTTF il foglio di dati e tassi di sostituzione del disco nel campo era più grande di quanto ci aspettassimo. ARR media ponderata è stata del 3,4 volte più grande del 0,88%, corrispondente ad un MTTF il foglio di dati di 1.000.000 ore.
Osservazione 2: per i vecchi sistemi (5-8 anni), MTTFs scheda di dati sottostimati tassi di sostituzione da tanto quanto un fattore di 30.
Osservazione 3: Anche durante i pochi primi anni del sistema di vita, una (<3 anni), quando usura-out non dovrebbe essere un fattore significativo, la differenza tra il foglio di dati MTTF e tempo osservate per la sostituzione del disco è stato grande come un fattore di 6.
Osservazione 4: Nel nostro set di dati, i tassi di sostituzione dei dischi SATA non sono peggio dei tassi di sostituzione di dischi SCSI o FC. Questo può indicare che i fattori disk-indipendenti, come le condizioni di funzionamento, l'utilizzo e fattori ambientali che influenzano i tassi di sostituzione più di componente fattori specifici. Tuttavia, l'unica prova che abbiamo di un lotto difettoso di dischi è stato trovato in una collezione di dischi SATA sperimentando elevati tassi di errore del supporto. Ci sono dati troppo poco per lotti male a stimare la frequenza relativa dei lotti cattivo per tipo di disco, anche se vi è abbondanza di prove aneddotiche che i lotti male non sono univoci per dischi SATA.
4,2 tassi di sostituzione età dipendenti
Un aspetto di errori del disco che a valore singolo parametri, quali il MTTF e di AFR non può cogliere è che nella vita reale i tassi di fallimento non sono costanti [ 5 ]. Tassi di insolvenza di prodotti hardware in genere seguono una "curva di vasca da bagno" con elevati tassi di insuccesso all'inizio (mortalità infantile) e la fine (usura-out) del ciclo di vita. La Figura 2 mostra il tasso di fallimento del modello che è atteso per il ciclo di vita dei dischi rigidi [ 4 , 5 , 33 ]. Secondo questo modello, il primo anno di attività è caratterizzata da fallimenti iniziali (o di mortalità infantile). Negli anni 05/02, i tassi di fallimento sono circa a regime, e poi, dopo anni 07/05 avvia, portare-fuori a calci a.
La preoccupazione comune, quella MTTFs non cattura la mortalità infantile, ha portato il disco International Drive Attrezzatura e Materiali Association (IDEMA) a proporre un nuovo standard per la specifica di affidabilità disk drive, in base al modello fallimento rappresentato nella figura 2 [ 5 , 33 ] . Le richieste di nuovi standard che i fornitori prevedono quattro diverse stime MTTF, uno per i primi 1-3 mesi di funzionamento, uno per mesi 4-6, una per i mesi 7-12, e una per 13-60 mesi.
L'obiettivo di questa sezione è di studio, basato su dati di campo la nostra sostituzione, come i tassi di sostituzione del disco in impianti di grandi dimensioni variano a seconda del ciclo di vita di un sistema. Si noti che vediamo solo ricambio visibili cliente. In caso di mancata mortalità infantile catturati nella produzione, integrazione di sistemi o test di installazione non sono probabilmente registrati in sostituzione di produzione log.
Il miglior set di dati per studiare i tassi di sostituzione in tutto il ciclo di vita del sistema sono HPC1 e il primo tipo di drive della HPC4. La ragione è che questi insiemi di dati coprono un arco di tempo abbastanza lungo (5 e 3 anni, rispettivamente) e ogni interessano una popolazione abbastanza omogenea del disco rigido, che ci permette di concentrarsi sugli effetti di età.
Studiamo la variazione dei tassi di sostituzione in funzione di età granularità a due tempi diversi, su una al mese e per singolo anno, per rendere più facile l'individuazione, sia a breve termine e tendenze a lungo termine. La Figura 3 mostra i tassi di sostituzione annuale per i dischi in nodi di calcolo del sistema HPC1 (a sinistra), i nodi del file system del sistema HPC1 (al centro) e il primo tipo di HPC4 unità (a destra), ad una granularità annuale.
Facciamo due osservazioni interessanti. In primo luogo, i tassi di sostituzione in tutti gli anni, tranne che per 1 anno, sono più grandi del foglio dati MTTF suggerirebbe. Per esempio, nel HPC1 di secondo anno, i tassi di sostituzione sono 20% più grande di quanto previsto per i nodi del file system, e un fattore di due rispetto a quanto previsto per i nodi di calcolo. In anni 4 e 5 (che sono ancora all'interno della durata nominale di vita di questi dischi), i tassi di sostituzione effettivi sono 7-10 volte superiori ai tassi di fallimento ci aspettavamo basato su foglio di dati MTTF.
La seconda osservazione è che i tassi di sostituzione sono in aumento in maniera significativa nel corso degli anni, anche durante i primi anni del ciclo di vita. I tassi di sostituzione HPC1 quasi doppia a partire da 1-2 anni, o da 2-3 anni. Questa osservazione suggerisce che indossano-out può essere avviato molto prima del previsto, con conseguente costante aumento dei tassi di sostituzione durante la maggior parte della vita utile di un sistema. Questa è un'osservazione interessante perché non è d'accordo con il presupposto comune che dopo il primo anno di funzionamento, i tassi di fallimento raggiungere uno stato stabile per alcuni anni, che costituisce il "fondo della vasca da bagno".
Successivamente, si passa alla vista per mesi dei tassi di sostituzione, mostrata in Figura 4 . Osserviamo che per il file system HPC1 nodi non ci sono sostituzioni nei primi 12 mesi di funzionamento, vale a dire non c'è alcuna mortalità infantile rilevabili. Per HPC4, ARR di unità non è più alto nei primi mesi del primo anno che negli ultimi mesi del primo anno. In the case of the HPC1 compute nodes, infant mortality is limited to the first month of operation and is not above the steady state estimate of the datasheet MTTF. Looking at the lifecycle after month 12, we again see continuously rising replacement rates, instead of the expected “bottom of the bathtub”.
Below we summarize the key observations of this section.
Observation 5: Contrary to common and proposed models, hard drive replacement rates do not enter steady state after the first year of operation. Instead replacement rates seem to steadily increase over time.
Observation 6: Early onset of wear-out seems to have a much stronger impact on lifecycle replacement rates than infant mortality, as experienced by end customers, even when considering only the first three or five years of a system's lifetime. We therefore recommend that wear-out be incorporated into new standards for disk drive reliability. The new standard suggested by IDEMA does not take wear-out into account [ 5 , 33 ].
5 Statistical properties of disk failures
In the previous sections, we have focused on aggregate statistics, eg the average number of disk replacements in a time period. Often one wants more information on the statistical properties of the time between failures than just the mean. For example, determining the expected time to failure for a RAID system requires an estimate on the probability of experiencing a second disk failure in a short period, that is while reconstructing lost data from redundant data. This probability depends on the underlying probability distribution and maybe poorly estimated by scaling an annual failure rate down to a few hours.
The most common assumption about the statistical characteristics of disk failures is that they form a Poisson process, which implies two key properties:
- Failures are independent.
- The time between failures follows an exponential distribution.
The goal of this section is to evaluate how realistic the above assumptions are. We begin by providing statistical evidence that disk failures in the real world are unlikely to follow a Poisson process. We then examine each of the two key properties (independent failures and exponential time between failures) independently and characterize in detail how and where the Poisson assumption breaks. In our study, we focus on the HPC1 data set, since this is the only data set that contains precise timestamps for when a problem was detected (rather than just timestamps for when repair took place).
5.1 The Poisson assumption
|
The Poisson assumption implies that the number of failures during a given time interval (eg a week or a month) is distributed according to the Poisson distribution. Figure 5 (left) shows the empirical CDF of the number of disk replacements observed per month in the HPC1 data set, together with the Poisson distribution fit to the data's observed mean.
We find that the Poisson distribution does not provide a good visual fit for the number of disk replacements per month in the data, in particular for very small and very large numbers of replacements in a month. For example, under the Poisson distribution the probability of seeing ? failures in a given month is less than 0.0024, yet we see 20 or more disk replacements in nearly 20% of all months in HPC1's lifetime. Similarly, the probability of seeing zero or one failure in a given month is only 0.0003 under the Poisson distribution, yet in 20% of all months in HPC1's lifetime we observe zero or one disk replacement.
A chi-square test reveals that we can reject the hypothesis that the number of disk replacements per month follows a Poisson distribution at the 0.05 significance level. All above results are similar when looking at the distribution of number of disk replacements per day or per week, rather than per month.
One reason for the poor fit of the Poisson distribution might be that failure rates are not steady over the lifetime of HPC1. We therefore repeat the same process for only part of HPC1's lifetime. Figure 5 (right) shows the distribution of disk replacements per month, using only data from years 2 and 3 of HPC1. The Poisson distribution achieves a better fit for this time period and the chi-square test cannot reject the Poisson hypothesis at a significance level of 0.05. Note, however, that this does not necessarily mean that the failure process during years 2 and 3 does follow a Poisson process, since this would also require the two key properties of a Poisson process (independent failures and exponential time between failures) to hold. We study these two properties in detail in the next two sections.
5.2 Correlations
In this section, we focus on the first key property of a Poisson process, the independence of failures. Intuitively, it is clear that in practice failures of disks in the same system are never completely independent. The failure probability of disks depends for example on many factors, such as environmental factors, like temperature, that are shared by all disks in the system. When the temperature in a machine room is far outside nominal values, all disks in the room experience a higher than normal probability of failure. The goal of this section is to statistically quantify and characterize the correlation between disk replacements.
We start with a simple test in which we determine the correlation of the number of disk replacements observed in successive weeks or months by computing the correlation coefficient between the number of replacements in a given week or month and the previous week or month. For data coming from a Poisson processes we would expect correlation coefficients to be close to 0. Instead we find significant levels of correlations, both at the monthly and the weekly level.
The correlation coefficient between consecutive weeks is 0.72, and the correlation coefficient between consecutive months is 0.79. Repeating the same test using only the data of one year at a time, we still find significant levels of correlation with correlation coefficients of 0.4-0.8.
Statistically, the above correlation coefficients indicate a strong correlation, but it would be nice to have a more intuitive interpretation of this result. One way of thinking of the correlation of failures is that the failure rate in one time interval is predictive of the failure rate in the following time interval. To test the strength of this prediction, we assign each week in HPC1's life to one of three buckets, depending on the number of disk replacements observed during that week, creating a bucket for weeks with small, medium, and large number of replacements, respectively 1 . The expectation is that a week that follows a week with a “small” number of disk replacements is more likely to see a small number of replacements, than a week that follows a week with a “large” number of replacements. However, if failures are independent, the number of replacements in a week will not depend on the number in a prior week.
Figure 7 (left) shows the expected number of disk replacements in a week of HPC1's lifetime as a function of which bucket the preceding week falls in. We observe that the expected number of disk replacements in a week varies by a factor of 9, depending on whether the preceding week falls into the first or third bucket, while we would expect no variation if failures were independent. When repeating the same process on the data of only year 3 of HPC1's lifetime, we see a difference of a close to factor of 2 between the first and third bucket.
So far, we have only considered correlations between successive time intervals, eg between two successive weeks. A more general way to characterize correlations is to study correlations at different time lags by using the autocorrelation function. Figure 6 (left) shows the autocorrelation function for the number of disk replacements per week computed across the HPC1 data set. For a stationary failure process (eg data coming from a Poisson process) the autocorrelation would be close to zero at all lags. Instead, we observe strong autocorrelation even for large lags in the range of 100 weeks (nearly 2 years).
We repeated the same autocorrelation test for only parts of HPC1's lifetime and find similar levels of autocorrelation. Figure 6 (right), for example, shows the autocorrelation function computed only on the data of the third year of HPC1's life. Correlation is significant for lags in the range of up to 30 weeks.
Another measure for dependency is long range dependence, as quantified by the Hurst exponent
. The Hurst exponent measures how fast the autocorrelation functions drops with increasing lags. A Hurst parameter between 0.5-1 signifies a statistical process with a long memory and a slow drop of the autocorrelation function. Applying several different estimators (see Section 2 ) to the HPC1 data, we determine a Hurst exponent between 0.6-0.8 at the weekly granularity. These values are comparable to Hurst exponents reported for Ethernet traffic, which is known to exhibit strong long range dependence [ 16 ].
Observation 7: Disk replacement counts exhibit significant levels of autocorrelation.
Observation 8: Disk replacement counts exhibit long-range dependence.
5.3 Distribution of time between failure
In this section, we focus on the second key property of a Poisson failure process, the exponentially distributed time between failures. Figure 8 shows the empirical cumulative distribution function of time between disk replacements as observed in the HPC1 system and four distributions matched to it.
We find that visually the gamma and Weibull distributions are the best fit to the data, while exponential and lognormal distributions provide a poorer fit. This agrees with results we obtain from the negative log-likelihood, that indicate that the Weibull distribution is the best fit, closely followed by the gamma distribution. Performing a Chi-Square-Test, we can reject the hypothesis that the underlying distribution is exponential or lognormal at a significance level of 0.05. On the other hand the hypothesis that the underlying distribution is a Weibull or a gamma cannot be rejected at a significance level of 0.05.
Figure 8 (right) shows a close up of the empirical CDF and the distributions matched to it, for small time-between-replacement values (less than 24 hours). The reason that this area is particularly interesting is that a key application of the exponential assumption is in estimating the time until data loss in a RAID system. This time depends on the probability of a second disk failure during reconstruction, a process which typically lasts on the order of a few hours. The graph shows that the exponential distribution greatly underestimates the probability of a second failure during this time period. For example, the probability of seeing two drives in the cluster fail within one hour is four times larger under the real data, compared to the exponential distribution. The probability of seeing two drives in the cluster fail within the same 10 hours is two times larger under the real data, compared to the exponential distribution.
The poor fit of the exponential distribution might be due to the fact that failure rates change over the lifetime of the system, creating variability in the observed times between disk replacements that the exponential distribution cannot capture. We therefore repeated the above analysis considering only segments of HPC1's lifetime. Figure 9 shows as one example the results from analyzing the time between disk replacements in year 3 of HPC1's operation. While visually the exponential distribution now seems a slightly better fit, we can still reject the hypothesis of an underlying exponential distribution at a significance level of 0.05. The same holds for other 1-year and even 6-month segments of HPC1's lifetime. This leads us to believe that even during shorter segments of HPC1's lifetime the time between replacements is not realistically modeled by an exponential distribution.
While it might not come as a surprise that the simple exponential distribution does not provide as good a fit as the more flexible two-parameter distributions, an interesting question is what properties of the empirical time between failure make it different from a theoretical exponential distribution. We identify as a first differentiating feature that the data exhibits higher variability than a theoretical exponential distribution. The data has a
of 2.4, which is more than two times higher than the
of an exponential distribution, which is 1.
A second differentiating feature is that the time between disk replacements in the data exhibits decreasing hazard rates. Recall from Section 2.4 that the hazard rate function measures how the time since the last failure influences the expected time until the next failure. An increasing hazard rate function predicts that if the time since a failure is long then the next failure is coming soon. And a decreasing hazard rate function predicts the reverse. The table below summarizes the parameters for the Weibull and gamma distribution that provided the best fit to the data.
| Distribution / Parameters | ||||
| Weibull | Gamma | |||
| Forma | Scale | Forma | Scale | |
| HPC1 compute nodes | 0.73 | 0.037 | 0.65 | 176.4 |
| HPC1 filesystem nodes | 0.76 | 0.013 | 0.64 | 482.6 |
| All HPC1 nodes | 0.71 | 0.049 | 0.59 | 160.9 |
Disk replacements in the filesystem nodes, as well as the compute nodes, and across all nodes, are fit best with gamma and Weibull distributions with a shape parameter less than 1, a clear indicator of decreasing hazard rates.
Figure 10 illustrates the decreasing hazard rates of the time between replacements by plotting the expected remaining time until the next disk replacement (Y-axis) as a function of the time since the last disk replacement (X-axis). We observe that right after a disk was replaced the expected time until the next disk replacement becomes necessary was around 4 days, both for the empirical data and the exponential distribution. In the case of the empirical data, after surviving for ten days without a disk replacement the expected remaining time until the next replacement had grown from initially 4 to 10 days; and after surviving for a total of 20 days without disk replacements the expected time until the next failure had grown to 15 days. In comparison, under an exponential distribution the expected remaining time stays constant (also known as the memoryless property).
Note, that the above result is not in contradiction with the increasing replacement rates we observed in Section 4.2 as a function of drive age, since here we look at the distribution of the time between disk replacements in a cluster, not disk lifetime distributions (ie how long did a drive live until it was replaced).
Observation 9: The hypothesis that time between disk replacements follows an exponential distribution can be rejected with high confidence.
Observation 10: The time between disk replacements has a higher variability than that of an exponential distribution.
Observation 11: The distribution of time between disk replacements exhibits decreasing hazard rates, that is, the expected remaining time until the next disk was replaced grows with the time it has been since the last disk replacement.
6 Related work
There is very little work published on analyzing failures in real, large-scale storage systems, probably as a result of the reluctance of the owners of such systems to release failure data.
Among the few existing studies is the work by Talagala et al. [ 29 ], which provides a study of error logs in a research prototype storage system used for a web server and includes a comparison of failure rates of different hardware components. They identify SCSI disk enclosures as the least reliable components and SCSI disks as one of the most reliable component, which differs from our results.
In uno sforzo da poco avviato, Schwarz et al. [ 28 ] have started to gather failure data at the Internet Archive, which they plan to use to study disk failure rates and bit rot rates and how they are affected by different environmental parameters. In their preliminary results, they report ARR values of 2-6% and note that the Internet Archive does not seem to see significant infant mortality. Both observations are in agreement with our findings.
Gray [ 31 ] reports the frequency of uncorrectable read errors in disks and finds that their numbers are smaller than vendor data sheets suggest. Gray also provides ARR estimates for SCSI and ATA disks, in the range of 3-6%, which is in the range of ARRs that we observe for SCSI drives in our data sets.
Pinheiro et al. analyze disk replacement data from a large population of serial and parallel ATA drives [ 23 ]. They report ARR values ranging from 1.7% to 8.6%, which agrees with our results. The focus of their study is on the correlation between various system parameters and drive failures. They find that while temperature and utilization exhibit much less correlation with failures than expected, the value of several SMART counters correlate highly with failures. For example, they report that after a scrub error drives are 39 times more likely to fail within 60 days than drives without scrub errors and that 44% of all failed drives had increased SMART counts in at least one of four specific counters.
Many have criticized the accuracy of MTTF based failure rate predictions and have pointed out the need for more realistic models. A particular concern is the fact that a single MTTF value cannot capture life cycle patterns [ 4 , 5 , 33 ]. Our analysis of life cycle patterns shows that this concern is justified, since we find failure rates to vary quite significantly over even the first two to three years of the life cycle. However, the most common life cycle concern in published research is underrepresenting infant mortality. Our analysis does not support this. Instead we observe significant underrepresentation of the early onset of wear-out.
Early work on RAID systems [ 8 ] provided some statistical analysis of time between disk failures for disks used in the 1980s, but didn't find sufficient evidence to reject the hypothesis of exponential times between failure with high confidence. However, time between failure has been analyzed for other, non-storage data in several studies [ 11 , 17 , 26 , 27 , 30 , 32 ]. Four of the studies use distribution fitting and find the Weibull distribution to be a good fit [ 11 , 17 , 27 , 32 ], which agrees with our results. All studies looked at the hazard rate function, but come to different conclusions. Four of them [ 11 , 17 , 27 , 32 ] find decreasing hazard rates (Weibull shape parameter < 5 ). Others find that hazard rates are flat [ 30 ], or increasing [ 26 ]. We find decreasing hazard rates with Weibull shape parameter of 0.7-0.8.
Large-scale failure studies are scarce, even when considering IT systems in general and not just storage systems. Most existing studies are limited to only a few months of data, covering typically only a few hundred failures [ 13 , 20 , 21 , 26 , 30 , 32 ]. Many of the most commonly cited studies on failure analysis stem from the late 80's and early 90's, when computer systems where significantly different from today [ 9 , 10 , 12 , 17 , 18 , 19 , 30 ].
7 Conclusion
Many have pointed out the need for a better understanding of what disk failures look like in the field. Yet hardly any published work exists that provides a large-scale study of disk failures in production systems. As a first step towards closing this gap, we have analyzed disk replacement data from a number of large production systems, spanning more than 100,000 drives from at least four different vendors, including drives with SCSI, FC and SATA interfaces. Below is a summary of a few of our results.
- Large-scale installation field usage appears to differ widely from nominal datasheet MTTF conditions. The field replacement rates of systems were significantly larger than we expected based on datasheet MTTFs.
- For drives less than five years old, field replacement rates were larger than what the datasheet MTTF suggested by a factor of 2-10. For five to eight year old drives, field replacement rates were a factor of 30 higher than what the datasheet MTTF suggested.
- Changes in disk replacement rates during the first five years of the lifecycle were more dramatic than often assumed. While replacement rates are often expected to be in steady state in year 2-5 of operation (bottom of the “bathtub curve”), we observed a continuous increase in replacement rates, starting as early as in the second year of operation.
- In our data sets, the replacement rates of SATA disks are not worse than the replacement rates of SCSI or FC disks. This may indicate that disk-independent factors, such as operating conditions, usage and environmental factors, affect replacement rates more than component specific factors. However, the only evidence we have of a bad batch of disks was found in a collection of SATA disks experiencing high media error rates. We have too little data on bad batches to estimate the relative frequency of bad batches by type of disk, although there is plenty of anecdotal evidence that bad batches are not unique to SATA disks.
- The common concern that MTTFs underrepresent infant mortality has led to the proposal of new standards that incorporate infant mortality [ 33 ]. Our findings suggest that the underrepresentation of the early onset of wear-out is a much more serious factor than underrepresentation of infant mortality and recommend to include this in new standards.
- While many have suspected that the commonly made assumption of exponentially distributed time between failures/replacements is not realistic, previous studies have not found enough evidence to prove this assumption wrong with significant statistical confidence [ 8 ]. Based on our data analysis, we are able to reject the hypothesis of exponentially distributed time between disk replacements with high confidence. We suggest that researchers and designers use field replacement data, when possible, or two parameter distributions, such as the Weibull distribution.
- We identify as the key features that distinguish the empirical distribution of time between disk replacements from the exponential distribution, higher levels of variability and decreasing hazard rates. We find that the empirical distributions are fit well by a Weibull distribution with a shape parameter between 0.7 and 0.8.
- We also present strong evidence for the existence of correlations between disk replacement interarrivals. In particular, the empirical data exhibits significant levels of autocorrelation and long-range dependence.
8 Acknowledgments
We would like to thank Jamez Nunez and Gary Grider from the High Performance Computing Division at Los Alamos National Lab and Katie Vargo, J. Ray Scott and Robin Flaus from the Pittsburgh Supercomputing Center for collecting and providing us with data and helping us to interpret the data. We also thank the other people and organizations, who have provided us with data, but would like to remain unnamed. For discussions relating to the use of high end systems, we would like to thank Mark Seager and Dave Fox of the Lawrence Livermore National Lab. Thanks go also to the anonymous reviewers and our shepherd, Mary Baker, for the many useful comments that helped improve the paper.
We thank the members and companies of the PDL Consortium (including APC, Cisco, EMC, Hewlett-Packard, Hitachi, IBM, Intel, Network Appliance, Oracle, Panasas, Seagate, and Symantec) for their interest and support.
This material is based upon work supported by the Department of Energy under Award Number DE-FC02-06ER25767 2 and on research sponsored in part by the Army Research Office, under agreement number DAAD19-02-1-0389.
Note a piè
- … respectively 1
- More precisely, we choose the cutoffs between the buckets such that each bucket contains the same number of samples (ie weeks) by using the 33th percentile and the 66th percentile of the empirical distribution as cutoffs between the buckets.
- … DE-FC02-06ER25767 2
- This report was prepared as an account of work sponsored by an agency of the United States Government. Neither the United States Government nor any agency thereof, nor any of their employees, makes any warranty, express or implied, or assumes any legal liability or responsibility for the accuracy, completeness, or usefulness of any information, apparatus, product, or process disclosed, or represents that its use would not infringe privately owned rights. Reference herein to any specific commercial product, process, or service by trade name, trademark, manufacturer, or otherwise does not necessarily constitute or imply its endorsement, recommendation, or favoring by the United States Government or any agency thereof. The views and opinions of authors expressed herein do not necessarily state or reflect those of the United States Government or any agency thereof.
Bibliography
- 1
- Personal communication with Dan Dummer, Andrei Khurshudov, Erik Riedel, Ron Watts of Seagate, 2006.
- 2
- G. Cole.
Estimating drive reliability in desktop computers and consumer electronics systems. TP-338.1. Seagate.
2000. - 3
- Peter F. Corbett, Robert English, Atul Goel, Tomislav Grcanac, Steven Kleiman, James Leong, and Sunitha Sankar.
Row-diagonal parity for double disk failure correction.
In Proc. of the FAST '04 Conference on File and Storage Technologies , 2004. - 4
- J. G. Elerath.
AFR: problems of definition, calculation and measurement in a commercial environment.
In Proc. of the Annual Reliability and Maintainability Symposium , 2000. - 5
- J. G. Elerath.
Specifying reliability in the disk drive industry: No more MTBFs.
In Proc. of the Annual Reliability and Maintainability Symposium , 2000. - 6
- J. G. Elerath and S. Shah.
Server class drives: How reliable are they?
In Proc. of the Annual Reliability and Maintainability Symposium , 2004. - 7
- Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung.
The Google file system.
In Proc. of the 19th ACM Symposium on Operating Systems Principles (SOSP'03) , 2003. - 8
- Garth A. Gibson.
Redundant disk arrays: Reliable, parallel secondary storage. Dissertation. MIT Press.
1992. - 9
- J. Gray.
Why do computers stop and what can be done about it.
In Proc. of the 5th Symposium on Reliability in Distributed Software and Database Systems , 1986. - 10
- J. Gray.
A census of tandem system availability between 1985 and 1990.
IEEE Transactions on Reliability , 39(4), 1990. - 11
- T. Heath, R. P. Martin, and T. D. Nguyen.
Improving cluster availability using workstation validation.
In Proc. of the 2002 ACM SIGMETRICS international conference on Measurement and modeling of computer systems , 2002. - 12
- R. K. Iyer, D. J. Rossetti, and M. C. Hsueh.
Measurement and modeling of computer reliability as affected by system activity.
ACM Trans. Comput. Syst. , 4(3), 1986. - 13
- M. Kalyanakrishnam, Z. Kalbarczyk, and R. Iyer.
Failure data analysis of a LAN of Windows NT based computers.
In Proc. of the 18th IEEE Symposium on Reliable Distributed Systems , 1999. - 14
- T. Karagiannis.
Selfis: A short tutorial.
Technical report, University of California, Riverside, 2002. - 15
- Thomas Karagiannis, Mart Molle, and Michalis Faloutsos.
Long-range dependence: Ten years of internet traffic modeling.
IEEE Internet Computing , 08(5), 2004. - 16
- Will E. Leland, Murad S. Taqqu, Walter Willinger, and Daniel V. Wilson.
On the self-similar nature of ethernet traffic.
IEEE/ACM Transactions on Networking , 2(1), 1994. - 17
- T.-T. Y. Lin and D. P. Siewiorek.
Error log analysis: Statistical modeling and heuristic trend analysis.
IEEE Transactions on Reliability , 39(4), 1990. - 18
- J. Meyer and L. Wei.
Analysis of workload influence on dependability.
In Proc. International Symposium on Fault-Tolerant Computing , 1988. - 19
- B. Murphy and T. Gent.
Measuring system and software reliability using an automated data collection process.
Quality and Reliability Engineering International , 11(5), 1995. - 20
- D. Nurmi, J. Brevik, and R. Wolski.
Modeling machine availability in enterprise and wide-area distributed computing environments.
In Euro-Par'05 , 2005. - 21
- D. L. Oppenheimer, A. Ganapathi, and D. A. Patterson.
Why do internet services fail, and what can be done about it?
In USENIX Symposium on Internet Technologies and Systems , 2003. - 22
- David Patterson, Garth Gibson, and Randy Katz.
A case for redundant arrays of inexpensive disks (RAID).
In Proc. of the ACM SIGMOD International Conference on Management of Data , 1988. - 23
- E. Pinheiro, W. D. Weber, and L. A. Barroso.
Failure trends in a large disk drive population.
In Proc. of the FAST '07 Conference on File and Storage Technologies , 2007. - 24
- Vijayan Prabhakaran, Lakshmi N. Bairavasundaram, Nitin Agrawal, Haryadi S. Gunawi, Andrea C. Arpaci-Dusseau, and Remzi H. Arpaci-Dusseau.
Iron file systems.
In Proc. of the 20th ACM Symposium on Operating Systems Principles (SOSP'05) , 2005. - 25
- Sheldon M. Ross.
In Introduction to probability models. 6th edition. Academic Press . - 26
- R. K. Sahoo, R. K., A. Sivasubramaniam, M. S. Squillante, and Y. Zhang.
Failure data analysis of a large-scale heterogeneous server environment.
In Proc. of the 2004 International Conference on Dependable Systems and Networks (DSN'04) , 2004. - 27
- B. Schroeder and G. Gibson.
A large-scale study of failures in high-performance computing systems.
In Proc. of the 2006 International Conference on Dependable Systems and Networks (DSN'06) , 2006. - 28
- T. Schwarz, M. Baker, S. Bassi, B. Baumgart, W. Flagg, C. van Ingen, K. Joste, M. Manasse, and M. Shah.
Disk failure investigations at the internet archive.
In Work-in-Progess session, NASA/IEEE Conference on Mass Storage Systems and Technologies (MSST2006) , 2006. - 29
- Nisha Talagala and David Patterson.
An analysis of error behaviour in a large storage system.
In The IEEE Workshop on Fault Tolerance in Parallel and Distributed Systems , 1999. - 30
- D. Tang, R. K. Iyer, and S. S. Subramani.
Failure analysis and modelling of a VAX cluster system.
In Proc. International Symposium on Fault-tolerant computing , 1990. - 31
- C. van Ingen and J. Gray.
Empirical measurements of disk failure rates and error rates.
In MSR-TR-2005-166 , 2005. - 32
- J. Xu, Z. Kalbarczyk, and R. K. Iyer.
Networked Windows NT system field failure data analysis.
In Proc. of the 1999 Pacific Rim International Symposium on Dependable Computing , 1999. - 33
- Jimmy Yang and Feng-Bin Sun.
A comprehensive review of hard-disk drive reliability.
In Proc. of the Annual Reliability and Maintainability Symposium , 1999.
Copyright © 1993, 1994, 1995, 1996, Nikos Drakos , Computer Based Learning Unit, University of Leeds.
Copyright © 1997, 1998, 1999, Ross Moore , Mathematics Department, Macquarie University, Sydney.
written by:
Carnegie Mellon University {bianca, garth}@cs.cmu.edu










