Home > Analisis Kegagalan kegagalan Disk> di dunia nyata: Apa MTBF dari 1M jam artinya bagi Anda?

Disk kegagalan di dunia nyata: Apa MTBF dari 1M jam artinya bagi Anda?

Dari Konferensi USENIX 5 File dan Storage Technologies

Komponen kegagalan dalam skala besar TI instalasi adalah menjadi masalah yang lebih besar sebagai jumlah komponen dalam sebuah pendekatan cluster tunggal million.In makalah ini, kami hadir dan menganalisis lapangan mengumpulkan data disk pengganti dari sejumlah sistem produksi yang besar, termasuk komputasi kinerja tinggi dan layanan internet situs situs. Sekitar 100.000 disk dilindungi dengan data ini, beberapa untuk seumur hidup lima tahun. Data termasuk drive dengan disk SCSI dan FC, serta interface SATA. Sementara itu untuk kegagalan (MTTF) dari mereka drive, sebagaimana tercantum dalam lembar data mereka, berkisar dari 1.000.000 sampai 1.500.000 jam, menunjukkan tingkat kegagalan tahunan paling banyak nominal 0,88%.
Kami menemukan bahwa di lapangan, penggantian disk biasanya bunga tahunan melebihi 1%, dengan 2-4% umum dan sampai dengan 13% diamati pada beberapa sistem. Hal ini menunjukkan bahwa penggantian lapangan merupakan proses yang cukup berbeda dari satu mungkin memprediksi berdasarkan datasheet MTTF.

Kami juga menemukan bukti, berdasarkan catatan pengganti disk di lapangan, bahwa tingkat kegagalan tidak konstan dengan usia, dan bahwa, daripada efek kematian bayi yang signifikan, kita melihat awal-awal signifikan dari degradasi pakai. Artinya, penggantian suku di data kami tumbuh terus-menerus dengan usia, efek sering diasumsikan tidak diatur dalam sampai seumur hidup nominal 5 tahun.

Menariknya, kita amati sedikit perbedaan dalam tingkat penggantian antara SCSI, FC dan SATA drive, berpotensi indikasi bahwa faktor disk-independen, seperti kondisi operasi, mempengaruhi tingkat penggantian lebih dari komponen faktor-faktor tertentu. Di sisi lain, kita hanya melihat satu contoh dari pelanggan menolak seluruh populasi disk sebagai batch buruk, dalam hal ini karena media tingkat kesalahan, dan hal ini melibatkan disk SATA.

Waktu antara penggantian, proxy untuk waktu antara kegagalan, tidak baik dimodelkan dengan distribusi eksponensial dan pameran tingkat korelasi yang signifikan, termasuk autokorelasi dan ketergantungan jangka panjang.

1 Motivasi

Meskipun upaya besar, baik dalam industri dan akademisi, keandalan tinggi tetap menjadi tantangan utama dalam menjalankan skala besar sistem TI, dan pencegahan bencana dan bencana aktual biaya membuat sebagian besar dari total biaya kepemilikan. Dengan server cluster yang pernah lebih besar, mempertahankan tingkat kehandalan yang tinggi dan ketersediaan adalah masalah yang berkembang untuk banyak situs, termasuk sistem komputasi berperforma tinggi dan penyedia layanan internet. Kekhawatiran terutama besar adalah keandalan dari sistem penyimpanan, karena beberapa alasan. Pertama, kegagalan penyimpanan tidak hanya dapat menyebabkan tidak tersedianya data sementara, namun dalam kasus terburuk bisa mengakibatkan hilangnya data permanen. Kedua, tren teknologi dan kekuatan pasar dapat digabungkan untuk membuat sistem penyimpanan kegagalan terjadi lebih sering pada [masa depan 24 ]. Akhirnya, ukuran sistem penyimpanan dalam modern, skala besar TI instalasi telah berkembang ke skala yang belum pernah terjadi sebelumnya dengan ribuan perangkat penyimpanan, membuat kegagalan komponen norma daripada pengecualian [ 7 ].

Besar-besaran sistem TI, karena itu, perlu desain sistem yang lebih baik dan manajemen untuk mengatasi kegagalan lebih sering. Orang mungkin mengharapkan peningkatan tingkat redundansi yang dirancang untuk mode kegagalan tertentu [ 3 , 7 contoh],. desain dan sistem manajemen tersebut didasarkan pada model yang sangat sederhana kegagalan komponen dan proses perbaikan [ 22 ]. pengetahuan yang lebih baik tentang sifat-sifat statistik dari proses kegagalan penyimpanan, seperti distribusi waktu antar kerusakan, dapat memberdayakan peneliti dan desainer untuk mengembangkan baru, sistem penyimpanan lebih dapat diandalkan dan tersedia.

Sayangnya, banyak aspek dari kegagalan disk dalam sistem nyata tidak dipahami dengan baik, mungkin karena para pemilik sistem seperti enggan untuk melepaskan data kegagalan atau tidak mengumpulkan data tersebut. Akibatnya, praktisi biasanya bergantung pada vendor tertentu parameter, seperti maksud-waktu-untuk-kegagalan (MTTF), untuk model proses kegagalan, meskipun banyak yang skeptis terhadap ketepatan model-model [ 4 , 5 , 33 ]. Terlalu banyak akademik dan penelitian perusahaan didasarkan pada anekdot dan belakang amplop perhitungan, daripada data empiris [ 28 ].

Pekerjaan dalam makalah ini merupakan bagian dari agenda penelitian yang lebih luas dengan tujuan jangka panjang memberikan pemahaman yang lebih baik kegagalan dalam sistem TI dengan mengumpulkan, menganalisis dan membuat publik beragam rangkaian sejarah kegagalan nyata dari sistem produksi besar-besaran. Dalam pengejaran kami, kami telah berbicara dengan sejumlah situs produksi yang besar dan mampu meyakinkan beberapa dari mereka untuk menyediakan data kegagalan dari beberapa sistem mereka.

Dalam tulisan ini, kami menyediakan analisis ketujuh set data yang kami kumpulkan, dengan fokus pada kegagalan penyimpanan yang terkait. Data set berasal dari sejumlah sistem produksi besar-besaran, termasuk situs komputasi kinerja tinggi dan layanan internet besar situs, dan terutama terdiri dari penggantian hardware log. Set data yang bervariasi dengan durasi dari satu bulan sampai lima tahun dan mencakup total jumlah penduduk lebih dari 100.000 drive dari sekurangnya empat vendor yang berbeda. Disk yang dicakup oleh data ini meliputi drive dengan interface SCSI dan FC, biasanya digambarkan sebagai jenis yang paling dapat diandalkan dari hard disk, serta drive dengan interface SATA, umum di desktop dan sistem nearline. Meskipun 100.000 drive adalah besar sampel yang sangat relatif untuk dipublikasikan studi sebelumnya, itu lebih kecil dibandingkan dengan perusahaan diperkirakan 35 drive juta, dan 300 juta total drive dibangun pada tahun 2006 [ 1 ]. Fenomena seperti batch buruk yang disebabkan oleh perubahan garis fabrikasi mungkin memerlukan data yang lebih besar untuk sepenuhnya set karakter.

Kami menganalisa tiga aspek yang berbeda dari data. Kita mulai dalam Bagian 3 dengan menanyakan bagaimana penggantian frekuensi disk dibandingkan dengan frekuensi penggantian komponen perangkat keras lainnya. Pada Bagian 4 , kami menyediakan analisis kuantitatif tingkat penggantian disk yang diamati di lapangan dan pengamatan kita membandingkan dengan prediksi umum dan model yang digunakan oleh vendor. Dalam Bagian 5 , kami menganalisis sifat statistik tingkat penggantian disk. Kami studi korelasi antara penggantian disk dan mengidentifikasi sifat kunci dari distribusi empiris waktu antara penggantian, dan membandingkan hasil kami untuk model-model umum dan asumsi. Bagian 6 memberikan ikhtisar kerja terkait dan Bagian 7 menyimpulkan.

Tabel 1: Tinjauan dari data set kegagalan tujuh. Perhatikan bahwa jumlah disk yang diberikan dalam tabel adalah jumlah drive di sistem pada akhir periode pengumpulan data. Untuk beberapa sistem jumlah drive berubah selama periode pengumpulan data, dan kami menjelaskan bahwa dalam analisis kita. Disk parameter 10K dan 15K mengacu pada kecepatan rotasi dalam revolusi per menit; drive tidak berlabel 10K atau 15K mungkin memiliki kecepatan putaran 7.200 rpm.
Kumpulan data Jenis Lamanya # Disk # Server Cakram Cakram MTTF Tanggal pertama ARR
gugus peristiwa Menghitung Parameter (Mhours) Deploym. (%)
HPC1 HPC 01/08 - 06/05 474 765 2.318 18GB SCSI 10K 1,2 01/08 4,0
" " " 124 64 1.088 36GB SCSI 10K 1,2 " 2,2
HPC2 HPC 04/01 - 06/07 14 256 520 36GB SCSI 10K 1,2 01/12 1,1
HPC3 HPC 05/12 - 06/11 103 1.532 3.064 146GB 15K SCSI 1,5 05/08 3,7
" HPC 05/12 - 06/11 4 N / A 144 73GB SCSI 15K 1,5 " 3,0
" HPC 05/12 - 06/08 253 N / A 11.000 250GB SATA 7.2K 1,0 " 3,3
HPC4 Berbagai 03/09 - 06/08 269 N / A 8.430 250GB SATA 1,0 03/09 2,2
" HPC 05/11 - 06/08 7 N / A 2.030 500GB SATA 1,0 05/11 0,5
" cluster 05/09 - 06/08 9 N / A 3.158 400GB SATA 1,0 05/09 0,8
COM1 Int. serv. Mei 2006 84 N / A 26.734 10K SCSI 1,0 2001 2,8
COM2 Int. serv. 04/09 - 06/04 506 9.232 39.039 15K SCSI 1,5 2004 3,1
COM3 Int. serv. 05/01 - 05/12 2 N / A 56 10K FC 1,5 N / A 3,6
" " " 132 N / A 2.450 10K FC 1,5 N / A 5,4
" " " 108 N / A 796 10K FC 1,5 N / A 13,6
" " " 104 N / A 432 10K FC 1,5 1998 24,1


2 Metodologi


2,1 Apa yang dimaksud dengan kegagalan disk?

Meskipun sering diasumsikan bahwa kegagalan disk gagal mengikuti model-stop sederhana (mana disk baik bekerja dengan sempurna atau gagal sama sekali dan dalam cara yang mudah terdeteksi [ 22 , 24 ]), kegagalan disk jauh lebih kompleks dalam realitas. Sebagai contoh, disk drive dapat mengalami kesalahan sektor laten atau masalah kinerja transien. Sering kali sulit untuk benar atribut penyebab akar masalah untuk komponen perangkat keras tertentu.

Pekerjaan kami didasarkan pada catatan penggantian hardware dan log, yaitu kita fokus pada kondisi disk yang memimpin pelanggan untuk mengobati disk drive sebagai permanen gagal dan menggantinya. Kami menganalisis catatan dari sejumlah sistem produksi yang besar, yang berisi catatan untuk setiap disk yang diganti dalam sistem pada saat pengumpulan data. Untuk menginterpretasikan hasil pekerjaan kita dengan benar sangat penting untuk memahami proses bagaimana data ini telah dibuat. Setelah disk drive diidentifikasi sebagai kemungkinan penyebab dalam masalah, staf operasi (atau sistem komputer itu sendiri) melakukan serangkaian tes pada drive untuk menilai perilakunya. Jika memenuhi syarat sebagai perilaku rusak sesuai dengan definisi pelanggan, disk diganti dan dibuat sesuai entri dalam log penggantian hardware.

Yang penting untuk dicatat adalah bahwa tidak ada satu definisi yang unik untuk saat drive adalah salah. Secara khusus, pelanggan dan vendor akan menggunakan definisi yang berbeda. Misalnya, cara yang umum bagi pelanggan untuk test drive adalah dengan membaca semua sektor untuk melihat apakah ada masalah pengalaman membaca, dan memutuskan bahwa itu salah jika ada operasi satu butuh lebih lama dari ambang tertentu. Hasil tes tersebut akan tergantung pada bagaimana batas dipilih. Banyak situs mengikuti "lebih baik aman daripada menyesal" mentalitas, dan menggunakan pengujian bahkan lebih ketat. Akibatnya, tidak dapat dikesampingkan bahwa pelanggan dapat menyatakan disk yang rusak, sementara produsen melihatnya sebagai sehat. Ini juga berarti bahwa definisi "salah" bahwa pelanggan menggunakan drive tidak selalu sesuai dengan definisi bahwa produsen drive digunakan untuk membuat proyeksi reliabilitas drive. Bahkan, vendor disk telah melaporkan bahwa untuk 43% dari semua disk dikembalikan oleh pelanggan mereka menemukan masalah dengan disk [ 1 ].

Juga penting untuk dicatat bahwa perilaku kegagalan drive tergantung pada kondisi operasi, dan tidak hanya pada faktor tingkat komponen. Sebagai contoh, tingkat kegagalan dipengaruhi oleh faktor-faktor lingkungan, seperti suhu dan kelembaban, pusat data penanganan prosedur, beban kerja dan siklus tugas "" atau powered-pada pola jam.

Kami juga ingin menunjukkan bahwa perilaku kegagalan dari hard disk, bahkan jika mereka model yang sama, bisa berbeda, karena disk yang diproduksi menggunakan proses dan bagian-bagian yang mungkin berubah. Perubahan ini, seperti perubahan dalam firmware drive atau komponen perangkat keras atau bahkan dari jalur perakitan pada drive yang dibuat, dapat mengubah perilaku kegagalan drive. Efek ini sering disebut efek bets atau vintage. Sebuah batch buruk dapat menghasilkan tingkat drive kegagalan yang luar biasa tinggi atau tingkat yang luar biasa tinggi kesalahan media. Misalnya, dalam data HPC3 set (Tabel 1 ) 11.000 pelanggan telah diganti drive SATA Oktober 2006 setelah mengamati frekuensi tinggi kesalahan media selama menulis. Meskipun butuh satu tahun untuk menyelesaikan, pelanggan dan vendor sepakat bahwa drive ini tidak memenuhi persyaratan garansi. Penyebabnya ini disebabkan oleh kerusakan pelumas menuju kepala sangat tinggi terbang tinggi. Dalam data, penggantian drive ini tidak dicatat sebagai kegagalan.

Dalam analisis kami, kami tidak lagi mempelajari pengaruh bets. Kami melaporkan pengalaman lapangan, dalam hal tingkat penggantian disk, dari serangkaian pelanggan drive. Pelanggan biasanya tidak memiliki informasi yang diperlukan untuk menentukan drive yang mereka gunakan berasal dari batch yang sama atau berbeda. Sejak mencakup data kami sejumlah besar drive (lebih dari 100.000) dan berasal dari beragam rangkaian pelanggan dan sistem, kami menganggap itu juga mencakup beragam rangkaian vendor, model dan bets. Karena itu, kami menganggap tidak mungkin bahwa hasil kami secara signifikan terdistorsi oleh "batch buruk". Namun, kami memperingatkan pembaca untuk tidak menganggap semua drive berperilaku identik.


2,2 disk Menentukan keandalan dan frekuensi kegagalan

Drive produsen menentukan keandalan produk mereka dalam hal dua metrik terkait: tingkat kegagalan tahunan (AFR), yang merupakan persentase dari hard disk dalam suatu populasi yang gagal dalam tes diskala untuk estimasi per tahun; dan waktu berarti kegagalan (MTTF). The AFR produk baru biasanya diperkirakan berdasarkan kehidupan dipercepat dan stres tes atau berdasarkan data lapangan dari produk sebelumnya [ 2 ]. The MTTF diperkirakan sebagai jumlah daya pada jam per tahun dibagi dengan AFR itu. Asumsi umum untuk drive di server adalah mereka yang didukung pada 100% dari waktu. Data kami menetapkan penyedia semua percaya bahwa disk mereka yang didukung dan digunakan setiap saat. The MTTFs dispesifikasikan untuk disk kualitas tertinggi saat ini berkisar dari 1.000.000 jam untuk 1.500.000 jam, sesuai dengan AFRs dari 0,58% menjadi 0,88%. The AFR dan estimasi MTTF dari produsen termasuk dalam drive datasheet dan kami merujuk kepada mereka dalam sisa sebagai AFR datasheet dan MTTF datasheet.

Sebaliknya, dalam analisis data kami, kami akan melaporkan tingkat penggantian tahunan (ARR) untuk mencerminkan fakta bahwa, sesungguhnya, penggantian disk yang dilaporkan dalam log pelanggan tidak harus sama dengan kegagalan disk (seperti yang dijelaskan dalam Pasal 2,1 ).

Sumber Data 2,3

Tabel 1 memberikan gambaran dari ketujuh set data yang digunakan dalam studi ini. Data set HPC1, HPC2, dan HPC3 dikumpulkan pada tiga sistem cluster besar pada tiga organisasi yang berbeda dengan menggunakan superkomputer. HPC4 kumpulan data dikumpulkan pada puluhan situs HPC dikelola secara independen, termasuk superkomputer situs serta HPC situs komersial. Data set COM1, COM2, dan COM3 dikumpulkan pada setidaknya tiga sistem cluster berbeda pada penyedia layanan internet besar dengan banyak didistribusikan dan dikelola secara terpisah situs. Dalam semua kasus, data kami melaporkan hanya sebagian dari sistem komputasi yang dijalankan oleh setiap organisasi, sebagai diputuskan dan dipilih oleh sumber-sumber kita.

Penting untuk dicatat bahwa untuk beberapa sistem jumlah drive pada sistem yang berubah secara signifikan selama periode pengumpulan data. Sementara meja hanya menyediakan hitungan disk pada akhir periode pengumpulan data, analisis kami dalam rekening sisa kertas untuk tanggal aktual dari perubahan-perubahan dalam jumlah drive. Kedua, beberapa log juga merekam peristiwa selain penggantian, maka jumlah kejadian disk yang diberikan dalam tabel tidak harus sama dengan jumlah penggantian atau kegagalan. nilai ARR ini untuk set data sehingga tidak dapat secara langsung dihitung dari Tabel 1 .

Di bawah ini kami menjelaskan masing-masing kumpulan data dan lingkungan itu berasal dari lebih terinci.

HPC1 adalah log lima tahun pengganti hardware yang dikumpulkan dari 765 node cluster komputasi berperforma tinggi. Setiap 765 node adalah 4-way SMP dengan 4 GB memori dan 3-4 18GB 10K rpm SCSI drive. Dari node, 64 digunakan sebagai filesystem node mengandung, di samping 03:57 18GB drive, 17 36GB SCSI 10K rpm. Aplikasi berjalan pada sistem ini biasanya simulasi ilmiah besar-besaran atau aplikasi visualisasi. Data tersebut berisi, untuk setiap penggantian perangkat keras yang tercatat selama masa lima tahun dari sistem, ketika masalah mulai, yang simpul dan komponen perangkat keras yang terpengaruh, dan deskripsi singkat dari tindakan korektif.

HPC2 adalah catatan dari disk pengganti diamati pada menghitung node dari cluster HPC 256 node. Setiap node 4-way SMP dengan 16 GB memori dan berisi dua 36GB SCSI 10K rpm, kecuali untuk delapan dari node, yang berisi delapan 36GB SCSI 10K rpm setiap drive. Aplikasi berjalan pada sistem ini biasanya simulasi ilmiah besar-besaran atau aplikasi visualisasi. Untuk setiap penggantian disk, data mencatat jumlah node yang terkena, waktu mulai masalah, dan jumlah slot dari drive diganti.

HPC3 adalah catatan dari disk pengganti diamati pada cluster HPC 1.532 node. Setiap node dilengkapi dengan delapan CPU dan memori 32GB. Setiap node, kecuali untuk empat node login, memiliki dua 146GB 15K rpm disk SCSI. Selain itu, 11.000 250GB SATA 7200 rpm drive digunakan dalam sebuah filesystem bersama eksternal dan 144 73GB 15K rpm SCSI drive digunakan untuk filesystem metadata. Aplikasi berjalan pada sistem ini biasanya simulasi ilmiah besar-besaran atau aplikasi visualisasi. Untuk setiap penggantian disk, kumpulan data catatan hari penggantian.

Data HPC4 set adalah layanan garansi log dari disk pengganti. Ini mencakup tiga jenis SATA drive yang digunakan dalam puluhan cluster HPC dikelola secara terpisah. Untuk jenis pertama drive, meliputi data tiga tahun, untuk dua jenis lain itu mencakup kurang dari satu tahun. Catatan data, untuk setiap 13.618 drive, ketika pertama kali dikirim dan ketika (jika pernah) itu diganti di lapangan.

COM1 adalah log kegagalan hardware direkam oleh penyedia layanan internet dan gambar dari situs beberapa didistribusikan. Setiap record di data berisi cap waktu ketika kegagalan tersebut diperbaiki, informasi mengenai gejala kegagalan, dan daftar langkah-langkah yang diambil untuk mendiagnosa dan memperbaiki masalah. data tidak mengandung informasi pada saat setiap kegagalan sebenarnya terjadi, hanya bila perbaikan berlangsung. Data tersebut meliputi jumlah penduduk 26.734 SCSI 10K rpm disk drive. Jumlah server di lokasi dipantau tidak diketahui.

COM2 adalah layanan garansi log kegagalan hardware dicatat atas nama penyedia layanan internet di lokasi kejadian menggabungkan beberapa didistribusikan. Setiap kegagalan catatan berisi kode perbaikan (misalnya "hard drive Ganti) dan saat perbaikan itu selesai. Sekali lagi tidak ada informasi tentang waktu mulai setiap kegagalan. Log tidak mengandung entri untuk kegagalan disk yang diganti di lokasi pelanggan oleh hot-swapping di disk cadangan, karena data dibuat oleh pengolahan garansi, yang tidak berpartisipasi dalam on-situs pengganti hot-swap. Untuk account untuk penggantian disk yang hilang kami memperoleh nomor untuk replenishments berkala disk luang-situs dari penyedia layanan internet. Ukuran dari sistem yang mendasari berubah secara signifikan selama periode pengukuran, dimulai dengan 420 server pada tahun 2004 dan berakhir dengan 9.232 server di tahun 2006. Kami memperoleh catatan pembelian perangkat keras ini meliputi periode tiga bulan waktu untuk memperkirakan jumlah penduduk disk dalam analisis ARR kita.

Data COM3 ditetapkan berasal dari sistem penyimpanan yang besar luar yang digunakan oleh penyedia layanan internet dan terdiri dari empat populasi dari berbagai jenis disk FC (lihat Tabel 1). Walaupun data ini dikumpulkan pada tahun 2005, sistem ini memiliki komponen warisan beberapa yang setua dari tahun 1998 dan telah dikenal secara fisik dipindahkan setelah instalasi awal. Kami tidak menyertakan "penggantian disk usang" dalam analisis kami. COM3 berbeda dari set data lain dalam bahwa hanya menyediakan statistik agregat kegagalan disk, daripada catatan individual untuk setiap kegagalan. Data berisi dakwaan disk yang gagal dan digantikan tahun 2005 untuk masing-masing empat populasi disk.


2,4 Metode statistik

Kami ciri distribusi empiris menggunakan metrik impor dua: mean kuadrat dan koefisien variasi (C 2). Koefisien kuadrat variasi adalah ukuran variasi distribusi dan didefinisikan sebagai standar deviasi dibagi dengan kuadrat mean kuadrat. Keuntungan menggunakan kuadrat koefisien variasi sebagai ukuran variabilitas, daripada varians atau deviasi standar, adalah bahwa hal itu normal dengan mean, dan sebagainya memungkinkan perbandingan variabilitas di distribusi dengan cara yang berbeda.

Kami juga mempertimbangkan fungsi distribusi empiris kumulatif (CDF) dan seberapa baik dan sesuai dengan empat distribusi probabilitas yang umum digunakan dalam teori keandalan: distribusi eksponensial, distribusi Weibull, distribusi gamma, dan distribusi lognormal. Kami parameterize distribusi melalui estimasi maksimum likelihood dan mengevaluasi kebaikan sesuai dengan inspeksi visual, log-kemungkinan negatif dan tes chi-kuadrat.

Kami juga akan membahas tingkat bahaya dari distribusi waktu antara pengganti. Secara umum, tingkat bahaya dari t variabel random dengan distribusi probabilitas f (t) dan fungsi distribusi kumulatif F (t) didefinisikan sebagai [ 25 ]

h (t) = f (t) / (1 - F (t))

Intuitif, jika t variabel acak menunjukkan waktu antara kegagalan, tingkat bahaya h (t) menggambarkan tingkat kegagalan sesaat sebagai fungsi dari waktu sejak baru-baru ini mengamati kegagalan paling. Suatu sifat penting dari t 's distribusi adalah apakah tingkat bahaya adalah konstan (yang merupakan kasus untuk distribusi eksponensial) atau meningkat atau menurun. Tingkat bahaya konstan menunjukkan bahwa probabilitas kegagalan pada suatu titik waktu tertentu tidak tergantung pada berapa lama sudah sejak kegagalan yang terbaru. Tingkat bahaya peningkatan berarti bahwa probabilitas dari kegagalan meningkat, jika waktu sejak kegagalan terakhir telah lama. Tingkat bahaya penurunan berarti bahwa probabilitas dari kegagalan menurun, jika waktu terakhir sejak kegagalan telah lama.

Tingkat bahaya sering dipelajari untuk distribusi masa hidup. Penting untuk dicatat bahwa kami akan fokus pada tingkat bahaya dari waktu antara penggantian disk, dan bukan tingkat bahaya distribusi disk seumur hidup.

Karena kita tertarik dalam korelasi antara kegagalan disk kita perlu untuk mengukur tingkat korelasi. Fungsi autokorelasi (ACF) mengukur korelasi dari variabel acak dengan dirinya sendiri pada waktu yang berbeda lags l. The ACF, misalnya, dapat digunakan untuk menentukan apakah jumlah kegagalan dalam satu hari berkorelasi dengan jumlah kegagalan diamati hari l kemudian. Koefisien autokorelasi dapat berkisar antara 1 (korelasi positif yang tinggi) dan -1 (korelasi negatif tinggi). Nilai nol akan menunjukkan tidak ada korelasi, mendukung kemerdekaan kegagalan per hari.

Aspek lain dari proses kegagalan yang akan kita pelajari adalah ketergantungan jangka panjang. Long-range mengukur ketergantungan memori dari sebuah proses, khususnya seberapa cepat membusuk koefisien autokorelasi dengan semakin tertinggal. Kekuatan dari ketergantungan jangka panjang adalah diukur oleh eksponen Hurst. Sebuah pameran seri jangka panjang ketergantungan jika eksponen Hurst, H, adalah 0,5 <H <1. Kami menggunakan alat Selfis [ 14 ] untuk mendapatkan estimasi parameter Hurst menggunakan lima metode yang berbeda: metode nilai absolut, metode varians, R / S metode, metode periodogram, dan estimator Whittle. Sebuah pengantar singkat untuk jangka panjang ketergantungan dan penjelasan dari penduga parameter Hurst yang diberikan dalam [ 15 ].


3 Membandingkan disk penggantian frekuensi dengan komponen perangkat keras lainnya

Table 3. Tabel 3: frekuensi relatif dari pengganti komponen perangkat keras untuk sepuluh yang paling sering diganti komponen dalam sistem HPC1, COM1 dan COM2, masing-masing. Singkatan diambil langsung dari layanan data dan tidak diketahui memiliki definisi identik di set data.

Keandalan sistem tergantung pada semua komponen, dan bukan hanya hard drive (s). Sebuah pertanyaan alami adalah karena itu apa frekuensi relatif dari kegagalan drive, dibandingkan jenis lain kegagalan hardware. Untuk menjawab pertanyaan ini kita berkonsultasi set data HPC1, COM1, dan COM2, karena data set ini berisi catatan untuk semua jenis penggantian hardware, penggantian disk tidak hanya. Tabel 3 menunjukkan, untuk setiap data yang ditetapkan, daftar sepuluh yang paling sering diganti komponen hardware dan fraksi pengganti yang dibuat oleh masing-masing komponen. Kami mengamati bahwa walaupun sebenarnya fraksi pengganti disk berbeda-beda set data (berkisar antara 20% sampai 50%), itu membuat sebuah fraksi yang signifikan dalam semua tiga kasus. Dalam set data HPC1 dan COM2, disk drive adalah perangkat keras yang paling sering diganti komponen akuntansi untuk 30% dan 50% dari semua penggantian hardware, masing-masing. Dalam COM1 kumpulan data, disk adalah akuntansi runner-up dekat untuk hampir 20% dari semua penggantian hardware.

Sementara Tabel 3 menunjukkan bahwa disk antara komponen diganti hardware yang paling umum, tidak selalu berarti bahwa disk kurang handal atau memiliki siklus hidup lebih pendek dari komponen perangkat keras lainnya. Jumlah disk di sistem hanya mungkin jauh lebih besar dibandingkan dengan komponen perangkat keras lainnya. Untuk membandingkan keandalan komponen perangkat keras berbeda, kita perlu menormalkan jumlah penggantian komponen dengan ukuran populasi komponen itu.

Sayangnya, kami tidak memiliki, apapun sistem, jumlah penduduk yang tepat dari semua komponen perangkat keras. Namun, kami memiliki informasi yang cukup dalam HPC1 untuk memperkirakan jumlah dari empat komponen perangkat keras yang paling sering diganti (CPU, memori, disk, motherboard). Kami memperkirakan bahwa ada total 3.060 CPU, memori DIMM 3.060, dan 765 motherboard, dibandingkan dengan populasi 3.406 disk. Menggabungkan angka-angka ini dengan data pada Tabel 3 , kami menyimpulkan bahwa untuk sistem HPC1, tingkat di mana dalam lima tahun menggunakan memori DIMM digantikan secara kasar sebanding dengan pengganti hard drive, sebuah CPU sekitar 2,5 kali lebih sering diganti dari hard drive, dan sebuah motherboard adalah 50% lebih sering diganti dari hard drive.

Tabel 2: padam Node yang dihubungkan dengan masalah hardware dipecah oleh komponen perangkat keras yang bertanggung jawab. Ini termasuk semua padam, tidak hanya yang dibutuhkan penggantian komponen perangkat keras.

HPC1
Komponen %
CPU 44
Ingatan 29
Hard drive 16
PCI motherboard 9
Power supply 2

Diskusi di atas hanya mencakup kegagalan komponen yang membutuhkan perangkat keras yang akan diganti. Ketika menjalankan sebuah sistem besar yang sering tertarik pada kegagalan perangkat keras yang menyebabkan outage node, tidak hanya orang-orang yang memerlukan penggantian hardware. Oleh karena itu kita memperoleh catatan masalah HPC1 untuk setiap outage node yang disebabkan oleh masalah hardware, termasuk masalah-masalah yang memerlukan penggantian hardware serta masalah yang tetap dalam beberapa cara lain. Tabel 2 memberikan rincian dari semua catatan dalam data troubleshooting, dipecah oleh komponen perangkat keras yang diidentifikasi sebagai akar penyebab. Kami amati bahwa 16% dari semua catatan outage berhubungan dengan disk drive (dibandingkan dengan 30% pada Tabel 3 ), sehingga akar penyebab paling umum ketiga dilaporkan dalam data. Dua yang paling sering dilaporkan outage akar penyebab CPU dan memori, dengan 44% dan 29%, masing-masing.

Untuk gambar lengkap, kita juga perlu mengambil keparahan peristiwa anomali ke rekening. Sebuah melihat lebih dekat data menunjukkan bahwa masalah HPC1 sejumlah besar masalah disebabkan kegagalan CPU dan memori yang dipicu oleh kesalahan paritas, yaitu jumlah kesalahan terlalu besar untuk memperbaiki kesalahan tertanam kode untuk memperbaikinya. Dalam kasus tersebut, reboot sederhana akan membawa node terpengaruh kembali. Di sisi lain, sebagian besar masalah yang dihubungkan dengan hard disk (sekitar 90%) menyebabkan penggantian drive, yang merupakan tindakan perbaikan lebih mahal dan memakan waktu.

Idealnya, kami ingin membandingkan frekuensi masalah hardware yang kami melaporkan atas dengan frekuensi jenis lain masalah, kegagalan perangkat lunak tersebut, masalah jaringan, dll Sayangnya, kita tidak memiliki jenis informasi ini untuk sistem pada Tabel 1 . Namun, dalam [karya terbaru 27 ] kita telah menganalisis data kegagalan yang mencakup semua jenis outage node, termasuk yang disebabkan oleh hardware, software, masalah jaringan, masalah lingkungan, atau kesalahan operator. Data yang dikumpulkan selama 9 tahun pada lebih dari 20 cluster HPC dan berisi informasi rinci akar penyebab. Kami menemukan bahwa, untuk sistem HPC yang paling dalam data ini, lebih dari 50% dari semua gangguan diberikan ke masalah hardware dan sekitar 20% dari semua gangguan dikaitkan dengan masalah software. Konsisten dengan data pada Tabel 2 , kedua komponen perangkat keras yang paling umum menyebabkan outage node adalah memori dan CPU. Data dari studi baru-baru ini [ 27 ] tidak digunakan dalam makalah ini karena tidak mengandung informasi tentang penggantian penyimpanan.


Disk pengganti tingkat 4

4,1 Disk penggantian dan MTTF

usenix1
Gambar 1: Perbandingan AFRs datasheet (padat dan berlari baris dalam grafik) dan ARRs diamati di lapangan. Setiap baris dalam grafik sesuai dengan satu baris pada Tabel 1 . Garis putus-putus merupakan rata-rata tertimbang atas semua set data. Hanya disk dalam hidup nominal lima tahun dimasukkan, yaitu tidak ada bar untuk drive COM3 yang dikerahkan pada tahun 1998. Baris ketiga untuk COM3 dalam grafik terputus - ARR adalah 13,5%.

Dalam berikut, kita mempelajari bagaimana pengalaman lapangan dengan penggantian disk dibandingkan dengan spesifikasi datasheet kehandalan disk. Gambar 1 menunjukkan datasheet AFRs (padat horizontal dan berlari baris), maka ARRs diamati untuk masing-masing set data tujuh dan ARR rata tertimbang untuk semua disk kurang dari lima tahun (putus-putus baris). Bagi HPC1, HPC3, HPC4, dan COM3, yang mencakup berbagai jenis disk, grafik berisi beberapa bar, satu untuk tiap jenis disk, di-ke-kanan kiri urutan entri atas-ke-bawah yang sesuai pada Tabel 1 . Karena pada saat ini kami tidak tertarik pada efek wearout setelah berakhirnya's nominal disk seumur hidup, kami telah dimasukkan dalam Gambar 1 data hanya untuk drive dalam hidup nominal lima tahun. Secara khusus, kami tidak termasuk bar untuk jenis keempat dari drive di COM3 (lihat Tabel 1 ), yang dikerahkan pada tahun 1998 dan lebih dari tujuh tahun pada akhir pengumpulan data. Ini mungkin "usang" disk mengalami sebuah ARR, selama periode pengukuran, dari 24%. Karena drive ini seumur hidup dengan baik di luar nominal vendor untuk disk, tidak mengherankan bahwa disk mungkin mengenakan keluar. Semua drive lain dalam hidup nominal dan disajikan dalam gambar.

Gambar 1 menunjukkan perbedaan yang signifikan antara ARR diamati dan AFR datasheet untuk semua set data. Sedangkan datasheet AFRs antara 0,58% dan 0,88%, kisaran ARRs diamati dari 0,5% menjadi setinggi 13,5%. Artinya, ARRs diamati oleh kumpulan data dan jenis, yang hingga faktor 15 lebih tinggi dari AFRs datasheet.

Paling umum, nilai-nilai ARR diamati adalah dalam kisaran 3%. Misalnya, data untuk HPC1, yang meliputi hampir persis seumur hidup nominal seluruh lima tahun sebuah pameran ARR sebesar 3,4% (jauh lebih tinggi dari AFR datasheet dari 0,88%). The ARR rata-rata semua data set (tertimbang dengan jumlah drive pada masing-masing kumpulan data) adalah 3,01%. Bahkan setelah menghapus semua data COM3, yang pameran ARRs tertinggi, ARR rata-rata masih 2,86%, 3,3 kali lebih tinggi dari 0,88%.

Sangat menarik untuk mengamati bahwa data set ini tidak ada perbedaan yang signifikan antara tingkat penggantian untuk drive SCSI dan FC, biasanya digambarkan sebagai jenis yang paling dapat diandalkan dari hard disk, dan drive SATA, sering disebut-sebut sebagai kualitas lebih rendah. Misalnya, ARRs drive di set data HPC4, yang secara khusus SATA drive, termasuk yang paling rendah dari semua set data. Selain itu, data HPC3 mengatur mencakup drive SCSI dan SATA (sebagai bagian dari sistem yang sama di lingkungan operasi yang sama) dan mereka memiliki tingkat penggantian hampir identik. Of course, these HPC3 SATA drives were decommissioned because of media error rates attributed to lubricant breakdown (recall Section 2.1 ), our only evidence of a bad batch, so perhaps more data is needed to better understand the impact of batches in overall quality.

It is also interesting to observe that the only drives that have an observed ARR below the datasheet AFR are the second and third type of drives in data set HPC4. One possible reason might be that these are relatively new drives, all less than one year old (recall Table 1 ). Also, these ARRs are based on only 16 replacements, perhaps too little data to draw a definitive conclusion.

A natural question arises: why are the observed disk replacement rates so much higher in the field data than the datasheet MTTF would suggest, even for drives in the first years of operation. As discussed in Sections 2.1 and 2.2 , there are multiple possible reasons.

First, customers and vendors might not always agree on the definition of when a drive is “faulty”. The fact that a disk was replaced implies that it failed some (possibly customer specific) health test. When a health test is conservative, it might lead to replacing a drive that the vendor tests would find to be healthy. Note, however, that even if we scale down the ARRs in Figure 1 to 57% of their actual values, to estimate the fraction of drives returned to the manufacturer that fail the latter's health test [ 1 ], the resulting AFR estimates are still more than a factor of two higher than datasheet AFRs in most cases.

Second, datasheet MTTFs are typically determined based on accelerated (stress) tests, which make certain assumptions about the operating conditions under which the disks will be used (eg that the temperature will always stay below some threshold), the workloads and “duty cycles” or powered-on hours patterns, and that certain data center handling procedures are followed. In practice, operating conditions might not always be as ideal as assumed in the tests used to determine datasheet MTTFs. A more detailed discussion of factors that can contribute to a gap between expected and measured drive reliability is given by Elerath and Shah [ 6 ].

Below we summarize the key observations of this section.

Observation 1: Variance between datasheet MTTF and disk replacement rates in the field was larger than we expected. The weighted average ARR was 3.4 times larger than 0.88%, corresponding to a datasheet MTTF of 1,000,000 hours.

Observation 2: For older systems (5-8 years of age), data sheet MTTFs underestimated replacement rates by as much as a factor of 30.

Observation 3: Even during the first few years of a system's lifetime ( < 3 years), when wear-out is not expected to be a significant factor, the difference between datasheet MTTF and observed time to disk replacement was as large as a factor of 6.

Observation 4: In our data sets, the replacement rates of SATA disks are not worse than the replacement rates of SCSI or FC disks. This may indicate that disk-independent factors, such as operating conditions, usage and environmental factors, affect replacement rates more than component specific factors. However, the only evidence we have of a bad batch of disks was found in a collection of SATA disks experiencing high media error rates. We have too little data on bad batches to estimate the relative frequency of bad batches by type of disk, although there is plenty of anecdotal evidence that bad batches are not unique to SATA disks.


4.2 Age-dependent replacement rates

Useful life period

Figure 2: Lifecycle failure pattern for hard drives [ 33 ].

One aspect of disk failures that single-value metrics such as MTTF and AFR cannot capture is that in real life failure rates are not constant [ 5 ]. Failure rates of hardware products typically follow a “bathtub curve” with high failure rates at the beginning (infant mortality) and the end (wear-out) of the lifecycle. Figure 2 shows the failure rate pattern that is expected for the life cycle of hard drives [ 4 , 5 , 33 ]. According to this model, the first year of operation is characterized by early failures (or infant mortality). In years 2-5, the failure rates are approximately in steady state, and then, after years 5-7, wear-out starts to kick in.

The common concern, that MTTFs do not capture infant mortality, has lead the International Disk drive Equipment and Materials Association (IDEMA) to propose a new standard for specifying disk drive reliability, based on the failure model depicted in Figure 2 [ 5 , 33 ]. The new standard requests that vendors provide four different MTTF estimates, one for the first 1-3 months of operation, one for months 4-6, one for months 7-12, and one for months 13-60.

The goal of this section is to study, based on our field replacement data, how disk replacement rates in large-scale installations vary over a system's life cycle. Note that we only see customer visible replacement. Any infant mortality failure caught in the manufacturing, system integration or installation testing are probably not recorded in production replacement logs.

The best data sets to study replacement rates across the system life cycle are HPC1 and the first type of drives of HPC4. The reason is that these data sets span a long enough time period (5 and 3 years, respectively) and each cover a reasonably homogeneous hard drive population, allowing us to focus on the effect of age.

Figure 3

Figure 3: ARR for the first five years of system HPC1's lifetime, for the compute nodes (left) and the file system nodes (middle). ARR for the first type of drives in HPC4 as a function of drive age in years (right).
Figure 4: ARR per month over the first five years of system HPC1's lifetime, for the compute nodes (left) and the file system nodes (middle). ARR for the first type of drives in HPC4 as a function of drive age in months (right).
Figure 4.

We study the change in replacement rates as a function of age at two different time granularities, on a per-month and a per-year basis, to make it easier to detect both short term and long term trends. Figure 3 shows the annual replacement rates for the disks in the compute nodes of system HPC1 (left), the file system nodes of system HPC1 (middle) and the first type of HPC4 drives (right), at a yearly granularity.

We make two interesting observations. First, replacement rates in all years, except for year 1, are larger than the datasheet MTTF would suggest. For example, in HPC1's second year, replacement rates are 20% larger than expected for the file system nodes, and a factor of two larger than expected for the compute nodes. In year 4 and year 5 (which are still within the nominal lifetime of these disks), the actual replacement rates are 7-10 times higher than the failure rates we expected based on datasheet MTTF.

The second observation is that replacement rates are rising significantly over the years, even during early years in the lifecycle. Replacement rates in HPC1 nearly double from year 1 to 2, or from year 2 to 3. This observation suggests that wear-out may start much earlier than expected, leading to steadily increasing replacement rates during most of a system's useful life. This is an interesting observation because it does not agree with the common assumption that after the first year of operation, failure rates reach a steady state for a few years, forming the “bottom of the bathtub”.

Next, we move to the per-month view of replacement rates, shown in Figure 4 . We observe that for the HPC1 file system nodes there are no replacements during the first 12 months of operation, ie there's is no detectable infant mortality. For HPC4, the ARR of drives is not higher in the first few months of the first year than the last few months of the first year. In the case of the HPC1 compute nodes, infant mortality is limited to the first month of operation and is not above the steady state estimate of the datasheet MTTF. Looking at the lifecycle after month 12, we again see continuously rising replacement rates, instead of the expected “bottom of the bathtub”.

Below we summarize the key observations of this section.

Observation 5: Contrary to common and proposed models, hard drive replacement rates do not enter steady state after the first year of operation. Instead replacement rates seem to steadily increase over time.

Observation 6: Early onset of wear-out seems to have a much stronger impact on lifecycle replacement rates than infant mortality, as experienced by end customers, even when considering only the first three or five years of a system's lifetime. We therefore recommend that wear-out be incorporated into new standards for disk drive reliability. The new standard suggested by IDEMA does not take wear-out into account [ 5 , 33 ].


5 Statistical properties of disk failures

In the previous sections, we have focused on aggregate statistics, eg the average number of disk replacements in a time period. Often one wants more information on the statistical properties of the time between failures than just the mean. For example, determining the expected time to failure for a RAID system requires an estimate on the probability of experiencing a second disk failure in a short period, that is while reconstructing lost data from redundant data. This probability depends on the underlying probability distribution and maybe poorly estimated by scaling an annual failure rate down to a few hours.

The most common assumption about the statistical characteristics of disk failures is that they form a Poisson process, which implies two key properties:

  1. Failures are independent.
  2. The time between failures follows an exponential distribution.

The goal of this section is to evaluate how realistic the above assumptions are. We begin by providing statistical evidence that disk failures in the real world are unlikely to follow a Poisson process. We then examine each of the two key properties (independent failures and exponential time between failures) independently and characterize in detail how and where the Poisson assumption breaks. In our study, we focus on the HPC1 data set, since this is the only data set that contains precise timestamps for when a problem was detected (rather than just timestamps for when repair took place).


5.1 The Poisson assumption

Figure 5: CDF of number of disk replacements per month in HPC1 computed across the entire lifetime of HPC1 (left) and computed for only years 2-3 (right)
Figure 5.

The Poisson assumption implies that the number of failures during a given time interval (eg a week or a month) is distributed according to the Poisson distribution. Figure 5 (left) shows the empirical CDF of the number of disk replacements observed per month in the HPC1 data set, together with the Poisson distribution fit to the data's observed mean.

We find that the Poisson distribution does not provide a good visual fit for the number of disk replacements per month in the data, in particular for very small and very large numbers of replacements in a month. For example, under the Poisson distribution the probability of seeing ?  failures in a given month is less than 0.0024, yet we see 20 or more disk replacements in nearly 20% of all months in HPC1's lifetime. Similarly, the probability of seeing zero or one failure in a given month is only 0.0003 under the Poisson distribution, yet in 20% of all months in HPC1's lifetime we observe zero or one disk replacement.

A chi-square test reveals that we can reject the hypothesis that the number of disk replacements per month follows a Poisson distribution at the 0.05 significance level. All above results are similar when looking at the distribution of number of disk replacements per day or per week, rather than per month.

One reason for the poor fit of the Poisson distribution might be that failure rates are not steady over the lifetime of HPC1. We therefore repeat the same process for only part of HPC1's lifetime. Figure 5 (right) shows the distribution of disk replacements per month, using only data from years 2 and 3 of HPC1. The Poisson distribution achieves a better fit for this time period and the chi-square test cannot reject the Poisson hypothesis at a significance level of 0.05. Note, however, that this does not necessarily mean that the failure process during years 2 and 3 does follow a Poisson process, since this would also require the two key properties of a Poisson process (independent failures and exponential time between failures) to hold. We study these two properties in detail in the next two sections.


5.2 Correlations

In this section, we focus on the first key property of a Poisson process, the independence of failures. Intuitively, it is clear that in practice failures of disks in the same system are never completely independent. The failure probability of disks depends for example on many factors, such as environmental factors, like temperature, that are shared by all disks in the system. When the temperature in a machine room is far outside nominal values, all disks in the room experience a higher than normal probability of failure. The goal of this section is to statistically quantify and characterize the correlation between disk replacements.

We start with a simple test in which we determine the correlation of the number of disk replacements observed in successive weeks or months by computing the correlation coefficient between the number of replacements in a given week or month and the previous week or month. For data coming from a Poisson processes we would expect correlation coefficients to be close to 0. Instead we find significant levels of correlations, both at the monthly and the weekly level.

The correlation coefficient between consecutive weeks is 0.72, and the correlation coefficient between consecutive months is 0.79. Repeating the same test using only the data of one year at a time, we still find significant levels of correlation with correlation coefficients of 0.4-0.8.

Statistically, the above correlation coefficients indicate a strong correlation, but it would be nice to have a more intuitive interpretation of this result. One way of thinking of the correlation of failures is that the failure rate in one time interval is predictive of the failure rate in the following time interval. To test the strength of this prediction, we assign each week in HPC1's life to one of three buckets, depending on the number of disk replacements observed during that week, creating a bucket for weeks with small, medium, and large number of replacements, respectively 1 . The expectation is that a week that follows a week with a “small” number of disk replacements is more likely to see a small number of replacements, than a week that follows a week with a “large” number of replacements. However, if failures are independent, the number of replacements in a week will not depend on the number in a prior week.

Figure 7. Figure 7: Expected number of disk replacements in a week depending on the number of disk replacements in the previous week computed across the entire lifetime of HPC1 (left) and computed for only year 3 (right).

Figure 7 (left) shows the expected number of disk replacements in a week of HPC1's lifetime as a function of which bucket the preceding week falls in. We observe that the expected number of disk replacements in a week varies by a factor of 9, depending on whether the preceding week falls into the first or third bucket, while we would expect no variation if failures were independent. When repeating the same process on the data of only year 3 of HPC1's lifetime, we see a difference of a close to factor of 2 between the first and third bucket.

schroederfig61 Figure 6: Autocorrelation function for the number of disk replacements per week computed across the entire lifetime of the HPC1 system (left) and computed across only one year of HPC1's operation (right).

So far, we have only considered correlations between successive time intervals, eg between two successive weeks. A more general way to characterize correlations is to study correlations at different time lags by using the autocorrelation function. Figure 6 (left) shows the autocorrelation function for the number of disk replacements per week computed across the HPC1 data set. For a stationary failure process (eg data coming from a Poisson process) the autocorrelation would be close to zero at all lags. Instead, we observe strong autocorrelation even for large lags in the range of 100 weeks (nearly 2 years).

We repeated the same autocorrelation test for only parts of HPC1's lifetime and find similar levels of autocorrelation. Figure 6 (right), for example, shows the autocorrelation function computed only on the data of the third year of HPC1's life. Correlation is significant for lags in the range of up to 30 weeks.

Another measure for dependency is long range dependence, as quantified by the Hurst exponent $H$ . The Hurst exponent measures how fast the autocorrelation functions drops with increasing lags. A Hurst parameter between 0.5-1 signifies a statistical process with a long memory and a slow drop of the autocorrelation function. Applying several different estimators (see Section 2 ) to the HPC1 data, we determine a Hurst exponent between 0.6-0.8 at the weekly granularity. These values are comparable to Hurst exponents reported for Ethernet traffic, which is known to exhibit strong long range dependence [ 16 ].

Observation 7: Disk replacement counts exhibit significant levels of autocorrelation.

Observation 8: Disk replacement counts exhibit long-range dependence.


5.3 Distribution of time between failure

Figure 8. Figure 8: Distribution of time between disk replacements across all nodes in HPC1.

In this section, we focus on the second key property of a Poisson failure process, the exponentially distributed time between failures. Figure 8 shows the empirical cumulative distribution function of time between disk replacements as observed in the HPC1 system and four distributions matched to it.

We find that visually the gamma and Weibull distributions are the best fit to the data, while exponential and lognormal distributions provide a poorer fit. This agrees with results we obtain from the negative log-likelihood, that indicate that the Weibull distribution is the best fit, closely followed by the gamma distribution. Performing a Chi-Square-Test, we can reject the hypothesis that the underlying distribution is exponential or lognormal at a significance level of 0.05. On the other hand the hypothesis that the underlying distribution is a Weibull or a gamma cannot be rejected at a significance level of 0.05.

Figure 8 (right) shows a close up of the empirical CDF and the distributions matched to it, for small time-between-replacement values (less than 24 hours). The reason that this area is particularly interesting is that a key application of the exponential assumption is in estimating the time until data loss in a RAID system. This time depends on the probability of a second disk failure during reconstruction, a process which typically lasts on the order of a few hours. The graph shows that the exponential distribution greatly underestimates the probability of a second failure during this time period. For example, the probability of seeing two drives in the cluster fail within one hour is four times larger under the real data, compared to the exponential distribution. The probability of seeing two drives in the cluster fail within the same 10 hours is two times larger under the real data, compared to the exponential distribution.

Figure 9. Figure 9: Distribution of time between disk replacements across all nodes in HPC1 for only year 3 of operation.

The poor fit of the exponential distribution might be due to the fact that failure rates change over the lifetime of the system, creating variability in the observed times between disk replacements that the exponential distribution cannot capture. We therefore repeated the above analysis considering only segments of HPC1's lifetime. Figure 9 shows as one example the results from analyzing the time between disk replacements in year 3 of HPC1's operation. While visually the exponential distribution now seems a slightly better fit, we can still reject the hypothesis of an underlying exponential distribution at a significance level of 0.05. The same holds for other 1-year and even 6-month segments of HPC1's lifetime. This leads us to believe that even during shorter segments of HPC1's lifetime the time between replacements is not realistically modeled by an exponential distribution.

While it might not come as a surprise that the simple exponential distribution does not provide as good a fit as the more flexible two-parameter distributions, an interesting question is what properties of the empirical time between failure make it different from a theoretical exponential distribution. We identify as a first differentiating feature that the data exhibits higher variability than a theoretical exponential distribution. The data has a $C^2$ of 2.4, which is more than two times higher than the $C^2$ of an exponential distribution, which is 1.

A second differentiating feature is that the time between disk replacements in the data exhibits decreasing hazard rates. Recall from Section 2.4 that the hazard rate function measures how the time since the last failure influences the expected time until the next failure. An increasing hazard rate function predicts that if the time since a failure is long then the next failure is coming soon. And a decreasing hazard rate function predicts the reverse. The table below summarizes the parameters for the Weibull and gamma distribution that provided the best fit to the data.

Distribution / Parameters
Weibull Gamma
Bentuk Scale Bentuk Scale
HPC1 compute nodes 0,73 0.037 0,65 176.4
HPC1 filesystem nodes 0,76 0.013 0,64 482.6
All HPC1 nodes 0,71 0.049 0.59 160.9

Disk replacements in the filesystem nodes, as well as the compute nodes, and across all nodes, are fit best with gamma and Weibull distributions with a shape parameter less than 1, a clear indicator of decreasing hazard rates.

Figure 10. Figure 10: Illustration of decreasing hazard rates

Figure 10 illustrates the decreasing hazard rates of the time between replacements by plotting the expected remaining time until the next disk replacement (Y-axis) as a function of the time since the last disk replacement (X-axis). We observe that right after a disk was replaced the expected time until the next disk replacement becomes necessary was around 4 days, both for the empirical data and the exponential distribution. In the case of the empirical data, after surviving for ten days without a disk replacement the expected remaining time until the next replacement had grown from initially 4 to 10 days; and after surviving for a total of 20 days without disk replacements the expected time until the next failure had grown to 15 days. In comparison, under an exponential distribution the expected remaining time stays constant (also known as the memoryless property).

Note, that the above result is not in contradiction with the increasing replacement rates we observed in Section 4.2 as a function of drive age, since here we look at the distribution of the time between disk replacements in a cluster, not disk lifetime distributions (ie how long did a drive live until it was replaced).

Observation 9: The hypothesis that time between disk replacements follows an exponential distribution can be rejected with high confidence.

Observation 10: The time between disk replacements has a higher variability than that of an exponential distribution.

Observation 11: The distribution of time between disk replacements exhibits decreasing hazard rates, that is, the expected remaining time until the next disk was replaced grows with the time it has been since the last disk replacement.


6 Related work

There is very little work published on analyzing failures in real, large-scale storage systems, probably as a result of the reluctance of the owners of such systems to release failure data.

Among the few existing studies is the work by Talagala et al. [ 29 ], which provides a study of error logs in a research prototype storage system used for a web server and includes a comparison of failure rates of different hardware components. They identify SCSI disk enclosures as the least reliable components and SCSI disks as one of the most reliable component, which differs from our results.

In a recently initiated effort, Schwarz et al. [ 28 ] have started to gather failure data at the Internet Archive, which they plan to use to study disk failure rates and bit rot rates and how they are affected by different environmental parameters. In their preliminary results, they report ARR values of 2-6% and note that the Internet Archive does not seem to see significant infant mortality. Both observations are in agreement with our findings.

Gray [ 31 ] reports the frequency of uncorrectable read errors in disks and finds that their numbers are smaller than vendor data sheets suggest. Gray also provides ARR estimates for SCSI and ATA disks, in the range of 3-6%, which is in the range of ARRs that we observe for SCSI drives in our data sets.

Pinheiro et al. analyze disk replacement data from a large population of serial and parallel ATA drives [ 23 ]. They report ARR values ranging from 1.7% to 8.6%, which agrees with our results. The focus of their study is on the correlation between various system parameters and drive failures. They find that while temperature and utilization exhibit much less correlation with failures than expected, the value of several SMART counters correlate highly with failures. For example, they report that after a scrub error drives are 39 times more likely to fail within 60 days than drives without scrub errors and that 44% of all failed drives had increased SMART counts in at least one of four specific counters.

Many have criticized the accuracy of MTTF based failure rate predictions and have pointed out the need for more realistic models. A particular concern is the fact that a single MTTF value cannot capture life cycle patterns [ 4 , 5 , 33 ]. Our analysis of life cycle patterns shows that this concern is justified, since we find failure rates to vary quite significantly over even the first two to three years of the life cycle. However, the most common life cycle concern in published research is underrepresenting infant mortality. Our analysis does not support this. Instead we observe significant underrepresentation of the early onset of wear-out.

Early work on RAID systems [ 8 ] provided some statistical analysis of time between disk failures for disks used in the 1980s, but didn't find sufficient evidence to reject the hypothesis of exponential times between failure with high confidence. However, time between failure has been analyzed for other, non-storage data in several studies [ 11 , 17 , 26 , 27 , 30 , 32 ]. Four of the studies use distribution fitting and find the Weibull distribution to be a good fit [ 11 , 17 , 27 , 32 ], which agrees with our results. All studies looked at the hazard rate function, but come to different conclusions. Four of them [ 11 , 17 , 27 , 32 ] find decreasing hazard rates (Weibull shape parameter < 5 ). Others find that hazard rates are flat [ 30 ], or increasing [ 26 ]. We find decreasing hazard rates with Weibull shape parameter of 0.7-0.8.

Large-scale failure studies are scarce, even when considering IT systems in general and not just storage systems. Most existing studies are limited to only a few months of data, covering typically only a few hundred failures [ 13 , 20 , 21 , 26 , 30 , 32 ]. Many of the most commonly cited studies on failure analysis stem from the late 80's and early 90's, when computer systems where significantly different from today [ 9 , 10 , 12 , 17 , 18 , 19 , 30 ].


7 Conclusion

Many have pointed out the need for a better understanding of what disk failures look like in the field. Yet hardly any published work exists that provides a large-scale study of disk failures in production systems. As a first step towards closing this gap, we have analyzed disk replacement data from a number of large production systems, spanning more than 100,000 drives from at least four different vendors, including drives with SCSI, FC and SATA interfaces. Below is a summary of a few of our results.

  • Large-scale installation field usage appears to differ widely from nominal datasheet MTTF conditions. The field replacement rates of systems were significantly larger than we expected based on datasheet MTTFs.
  • For drives less than five years old, field replacement rates were larger than what the datasheet MTTF suggested by a factor of 2-10. For five to eight year old drives, field replacement rates were a factor of 30 higher than what the datasheet MTTF suggested.
  • Changes in disk replacement rates during the first five years of the lifecycle were more dramatic than often assumed. While replacement rates are often expected to be in steady state in year 2-5 of operation (bottom of the “bathtub curve”), we observed a continuous increase in replacement rates, starting as early as in the second year of operation.
  • In our data sets, the replacement rates of SATA disks are not worse than the replacement rates of SCSI or FC disks. This may indicate that disk-independent factors, such as operating conditions, usage and environmental factors, affect replacement rates more than component specific factors. However, the only evidence we have of a bad batch of disks was found in a collection of SATA disks experiencing high media error rates. We have too little data on bad batches to estimate the relative frequency of bad batches by type of disk, although there is plenty of anecdotal evidence that bad batches are not unique to SATA disks.
  • The common concern that MTTFs underrepresent infant mortality has led to the proposal of new standards that incorporate infant mortality [ 33 ]. Our findings suggest that the underrepresentation of the early onset of wear-out is a much more serious factor than underrepresentation of infant mortality and recommend to include this in new standards.
  • While many have suspected that the commonly made assumption of exponentially distributed time between failures/replacements is not realistic, previous studies have not found enough evidence to prove this assumption wrong with significant statistical confidence [ 8 ]. Based on our data analysis, we are able to reject the hypothesis of exponentially distributed time between disk replacements with high confidence. We suggest that researchers and designers use field replacement data, when possible, or two parameter distributions, such as the Weibull distribution.
  • We identify as the key features that distinguish the empirical distribution of time between disk replacements from the exponential distribution, higher levels of variability and decreasing hazard rates. We find that the empirical distributions are fit well by a Weibull distribution with a shape parameter between 0.7 and 0.8.
  • We also present strong evidence for the existence of correlations between disk replacement interarrivals. In particular, the empirical data exhibits significant levels of autocorrelation and long-range dependence.

8 Acknowledgments

We would like to thank Jamez Nunez and Gary Grider from the High Performance Computing Division at Los Alamos National Lab and Katie Vargo, J. Ray Scott and Robin Flaus from the Pittsburgh Supercomputing Center for collecting and providing us with data and helping us to interpret the data. We also thank the other people and organizations, who have provided us with data, but would like to remain unnamed. For discussions relating to the use of high end systems, we would like to thank Mark Seager and Dave Fox of the Lawrence Livermore National Lab. Thanks go also to the anonymous reviewers and our shepherd, Mary Baker, for the many useful comments that helped improve the paper.

We thank the members and companies of the PDL Consortium (including APC, Cisco, EMC, Hewlett-Packard, Hitachi, IBM, Intel, Network Appliance, Oracle, Panasas, Seagate, and Symantec) for their interest and support.

This material is based upon work supported by the Department of Energy under Award Number DE-FC02-06ER25767 2 and on research sponsored in part by the Army Research Office, under agreement number DAAD19-02-1-0389.


Catatan kaki

… respectively 1
More precisely, we choose the cutoffs between the buckets such that each bucket contains the same number of samples (ie weeks) by using the 33th percentile and the 66th percentile of the empirical distribution as cutoffs between the buckets.
… DE-FC02-06ER25767 2
This report was prepared as an account of work sponsored by an agency of the United States Government. Neither the United States Government nor any agency thereof, nor any of their employees, makes any warranty, express or implied, or assumes any legal liability or responsibility for the accuracy, completeness, or usefulness of any information, apparatus, product, or process disclosed, or represents that its use would not infringe privately owned rights. Reference herein to any specific commercial product, process, or service by trade name, trademark, manufacturer, or otherwise does not necessarily constitute or imply its endorsement, recommendation, or favoring by the United States Government or any agency thereof. The views and opinions of authors expressed herein do not necessarily state or reflect those of the United States Government or any agency thereof.

Bibliography

1
Personal communication with Dan Dummer, Andrei Khurshudov, Erik Riedel, Ron Watts of Seagate, 2006.
2
G. Cole.
Estimating drive reliability in desktop computers and consumer electronics systems. TP-338.1. Seagate.
2000.
3
Peter F. Corbett, Robert English, Atul Goel, Tomislav Grcanac, Steven Kleiman, James Leong, and Sunitha Sankar.
Row-diagonal parity for double disk failure correction.
In Proc. of the FAST '04 Conference on File and Storage Technologies , 2004.
4
J. G. Elerath.
AFR: problems of definition, calculation and measurement in a commercial environment.
In Proc. of the Annual Reliability and Maintainability Symposium , 2000.
5
J. G. Elerath.
Specifying reliability in the disk drive industry: No more MTBFs.
In Proc. of the Annual Reliability and Maintainability Symposium , 2000.
6
J. G. Elerath and S. Shah.
Server class drives: How reliable are they?
In Proc. of the Annual Reliability and Maintainability Symposium , 2004.
7
Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung.
The Google file system.
In Proc. of the 19th ACM Symposium on Operating Systems Principles (SOSP'03) , 2003.
8
Garth A. Gibson.
Redundant disk arrays: Reliable, parallel secondary storage. Disertasi. MIT Press.
1992.
9
J. Gray.
Why do computers stop and what can be done about it.
In Proc. of the 5th Symposium on Reliability in Distributed Software and Database Systems , 1986.
10
J. Gray.
A census of tandem system availability between 1985 and 1990.
IEEE Transactions on Reliability , 39(4), 1990.
11
T. Heath, R. P. Martin, and T. D. Nguyen.
Improving cluster availability using workstation validation.
In Proc. of the 2002 ACM SIGMETRICS international conference on Measurement and modeling of computer systems , 2002.
12
R. K. Iyer, D. J. Rossetti, and M. C. Hsueh.
Measurement and modeling of computer reliability as affected by system activity.
ACM Trans. Comput. Syst. , 4(3), 1986.
13
M. Kalyanakrishnam, Z. Kalbarczyk, and R. Iyer.
Failure data analysis of a LAN of Windows NT based computers.
In Proc. of the 18th IEEE Symposium on Reliable Distributed Systems , 1999.
14
T. Karagiannis.
Selfis: A short tutorial.
Technical report, University of California, Riverside, 2002.
15
Thomas Karagiannis, Mart Molle, and Michalis Faloutsos.
Long-range dependence: Ten years of internet traffic modeling.
IEEE Internet Computing , 08(5), 2004.
16
Will E. Leland, Murad S. Taqqu, Walter Willinger, and Daniel V. Wilson.
On the self-similar nature of ethernet traffic.
IEEE/ACM Transactions on Networking , 2(1), 1994.
17
T.-T. Y. Lin and D. P. Siewiorek.
Error log analysis: Statistical modeling and heuristic trend analysis.
IEEE Transactions on Reliability , 39(4), 1990.
18
J. Meyer and L. Wei.
Analysis of workload influence on dependability.
In Proc. International Symposium on Fault-Tolerant Computing , 1988.
19
B. Murphy and T. Gent.
Measuring system and software reliability using an automated data collection process.
Quality and Reliability Engineering International , 11(5), 1995.
20
D. Nurmi, J. Brevik, and R. Wolski.
Modeling machine availability in enterprise and wide-area distributed computing environments.
In Euro-Par'05 , 2005.
21
D. L. Oppenheimer, A. Ganapathi, and D. A. Patterson.
Why do internet services fail, and what can be done about it?
In USENIX Symposium on Internet Technologies and Systems , 2003.
22
David Patterson, Garth Gibson, and Randy Katz.
A case for redundant arrays of inexpensive disks (RAID).
In Proc. of the ACM SIGMOD International Conference on Management of Data , 1988.
23
E. Pinheiro, W. D. Weber, and L. A. Barroso.
Failure trends in a large disk drive population.
In Proc. of the FAST '07 Conference on File and Storage Technologies , 2007.
24
Vijayan Prabhakaran, Lakshmi N. Bairavasundaram, Nitin Agrawal, Haryadi S. Gunawi, Andrea C. Arpaci-Dusseau, and Remzi H. Arpaci-Dusseau.
Iron file systems.
In Proc. of the 20th ACM Symposium on Operating Systems Principles (SOSP'05) , 2005.
25
Sheldon M. Ross.
In Introduction to probability models. 6th edition. Academic Press .
26
R. K. Sahoo, R. K., A. Sivasubramaniam, M. S. Squillante, and Y. Zhang.
Failure data analysis of a large-scale heterogeneous server environment.
In Proc. of the 2004 International Conference on Dependable Systems and Networks (DSN'04) , 2004.
27
B. Schroeder and G. Gibson.
A large-scale study of failures in high-performance computing systems.
In Proc. of the 2006 International Conference on Dependable Systems and Networks (DSN'06) , 2006.
28
T. Schwarz, M. Baker, S. Bassi, B. Baumgart, W. Flagg, C. van Ingen, K. Joste, M. Manasse, and M. Shah.
Disk failure investigations at the internet archive.
In Work-in-Progess session, NASA/IEEE Conference on Mass Storage Systems and Technologies (MSST2006) , 2006.
29
Nisha Talagala and David Patterson.
An analysis of error behaviour in a large storage system.
In The IEEE Workshop on Fault Tolerance in Parallel and Distributed Systems , 1999.
30
D. Tang, R. K. Iyer, and S. S. Subramani.
Failure analysis and modelling of a VAX cluster system.
In Proc. International Symposium on Fault-tolerant computing , 1990.
31
C. van Ingen and J. Gray.
Empirical measurements of disk failure rates and error rates.
In MSR-TR-2005-166 , 2005.
32
J. Xu, Z. Kalbarczyk, and R. K. Iyer.
Networked Windows NT system field failure data analysis.
In Proc. of the 1999 Pacific Rim International Symposium on Dependable Computing , 1999.
33
Jimmy Yang and Feng-Bin Sun.
A comprehensive review of hard-disk drive reliability.
In Proc. of the Annual Reliability and Maintainability Symposium , 1999.

Copyright © 1993, 1994, 1995, 1996, Nikos Drakos , Computer Based Learning Unit, University of Leeds.
Copyright © 1997, 1998, 1999, Ross Moore , Mathematics Department, Macquarie University, Sydney.

written by:

Bianca Schroeder Garth A. Gibson Computer Science Department
Carnegie Mellon University {bianca, garth}@cs.cmu.edu

Anda harus login untuk mengirim komentar.
Theme Tweaker oleh Unreal