Κάποια στιγμή έπεσε στα χέρια μου το αρθράκι Failure Trends in a Large Disk Drive Population. Πρόκειται για μια μεγάλη έρευνα των τεχνικών της google η οποία εξέτασε τους λόγους που έβγαιναν εκτός λειτουργίας οι σκληροί δίσκοι της εταιρείας (100.000 τεμάχεια.) και τις σχέσεις με το smart. Επρόκειτο για PATA/SATA (5400-7200 rpm) consumer grade δίσκους.
Τα συμπεράσματα ήταν:
1) Τα smart data ΔΕΝ είναι τόσο χρήσιμα για να προβλέψουν το μέλλον.
Οι μοναδικές smart parameters που σχετίζονται άμεσα με τα κρασαρίσματα είναι:
Scan errors, Reallocation count, Offline reallocation, Probation count
Όμως, 56% των δίσκων που τα έπαιξαν, οι Google IT λένε ότι δεν εμφάνισαν δείγματα κακής συμπεριφοράς σε αυτούς τους 4 δείκτες.
Αξιόλογη παρατήρηση :Το πείραμά τους μάλιστα έδειξε πως στις περιπτώσεις που ένας δίσκος αποτύγχανε να σπινιάρει δεν είχε καταγράψει ούτε μια φόρα πρόβλημα με την παράμετρο spin retry.
Άλλο κουφό, η θερμοκρασία περιβάλλοντος και το επίπεδο δραστηριότητας (CPU utilization) ΔΕΝ σχετίζονται με το κρασάρισμα των δίσκων. Το πείραμά τους μάλιστα έδειξε πως οι χαμηλότερες θερμοκρασίες σχετίζονται περισσότερο με το κρασάρισμα.
Γνώμες και απόψεις μήπως γίνουμε σοφότεροι
Εμφάνιση 1-10 από 10
-
13-04-09, 23:27 Μια άλλη θεώρηση για το SMART #1
-
13-04-09, 23:32 Απάντηση: Μια άλλη θεώρηση για το SMART #2
Το συμπέρασμα μου φαίνεται είναι ότι οι δίσκοι που χαλάνε (λόγω αστοχίας υλικού) πεθαίνουν μια και καλή και απροειδοποίητα σε ποσοστό 56%.
-
13-04-09, 23:45 Απάντηση: Μια άλλη θεώρηση για το SMART #3
Τελικά το SMART, πόσο smart είναι;
Μερικοι τα γραφαν κατι χρονια πριν...
Τα πέντε "Α" του Μανόλη Γλέζου:
Αγανάκτηση, Αμφισβήτηση, Αυτογνωσία, Αλληλεγγύη, Αντίσταση.
Μένανδρος:
Όσοι δεν έχουν δικά τους προσόντα, καταφεύγουν στους ενδόξους προγόνους και παππούδες τους, με άλλα λόγια, σε τάφους και μνήματα.
-
14-04-09, 00:52 Απάντηση: Μια άλλη θεώρηση για το SMART #4
Τελευταία επεξεργασία από το μέλος drhouse : 14-04-09 στις 00:52. Αιτία: auto merged post
-
14-04-09, 03:58 Απάντηση: Μια άλλη θεώρηση για το SMART #5
Βασικα το αρθρο ειναι ολιγον ασαφες. Οταν λεει για παραδειγμα οτι "εβγαιναν εκτος λειτουργειας" τι εννοει ; Οτι χαλασανε και δε δουλευουν οπου και να τους βαλεις ή απλα στα δικα τους μηχανηματα δεν δουλευαν ;
Εξηγω:
Σχεδον ολοι οι add-on RAID Controllers εχουν πολυ πιο αυστηρες παραμετρους για τη λειτουργια και συμπεριφορα των δισκων. Για παραδειγμα μπορει ενας κοντρολερ να "πεταει" τον δισκο και να σου βγαζει Array Degraded, ομως τον ιδιο δισκο αν τον εβαζες σε μια σατα θυρα μιας απλης μητρικη να δουλευε κανονικοτατα.
Αρα μια ερευνα που σε server-workstation τοποθετουνται απλοι consumer δισκοι ΔΕΝ αποτελει και την πιο αξιοπιστη βαση για συζητηση.
Διοτι για παραδειγμα αν οι μισοι που "χαλασανε" και δεν ειχαν εμφανισει προβλημα στο SMART, τους εβαζες σε μια απλη μητρικη και δουλευανε, αυτωματως παμε στο οτι μονο το 25% αυτων που χαλασανε δεν εμφανιζει προηγουμενως ενδειξεις στο SMART.
Ε, ενα τετοιο ποσοστο δεν νομιζω να εκπλησει κανεναν, θα μπορουσα να πω δε οτι ειναι και αναμενομενο. Στο κατω κατω κανενας κατασκευαστης δεν ισχυριστηκε οτι το SMART ειναι πανακεια.
Υ.Γ. Εμενα πιο πολυ θα με ενδιεφερε να εβλεπα τα κατα τοπους εργοστασια της καθε εταιρειας παραγωγης δισκων, τι ποσοστο χαλασμενων δισκων βγαζει π.χ.
1)DOA
2)<3 months
3)<1 year
4)<2 years
5)>2 yearsΜη μου το ιντερνετ ταραττε !
-
14-04-09, 16:11 Απάντηση: Μια άλλη θεώρηση για το SMART #6
Για στάσου βρε ksipsi, ξεκινάνε ένα project να καταγράψουν τις αιτίες των κρασαρισμάτων, παραμέτρους smart, ..., σχέσεις μεταξύ αυτών ... Ποιός λογικός άνθρωπος θα λάμβανε υπ' όψη του περιπτώσεις λογικών σφαλμάτων σε μια τέτοια επιχείρηση? Ούτε παιδιά του δημοτικού δεν θα έκαναν τέτοια λάθη. Δεν είναι τόσο δύσκολο να πουν από του χ δίσκους οι χ-ν είχαν λογικά σφάλματα στους υπόλοιπους η σχέση με το smart είναι blah blah ...
Δεν το καταλαβαίνω στο σχόλιό σου.
Εγώ νομίζω πως τα δεδομένα αυτά είναι αρκετά χρήσιμα για μας τους τελικούς χρήστες.
1) Οι δικοί μας υπολογιστές δεν δουλεύουν σε καλύτερες συνθήκες (δωμάτιο ελεγχόμενης θερμοκρασίας) άρα είμαστε σε χειρότερη θέση.
2) Αυτοί οι δίσκοι που δούλευαν επάνω σε workstation μπορούμε να πούμε ότι προσομοιάζουν τους δικούς μας, ενω όσοι δούλευαν πάνω σε servers μπορούμε να πούμε ότι είχαν πολύ cpu usage.
Γιατί αυτό το δείγμα να είναι να είναι αναξιόπιστο?
-
14-04-09, 17:01 Απάντηση: Μια άλλη θεώρηση για το SMART #7
Εσυ δηλαδη θεωρεις οτι μια εταιρεια σαν την Google που θα της χαλανε καθημερινα να μην πω εκατονταδες δισκοι αλλα σιγουρα δεκαδες δισκοι, θα καθεται και θα ελεγχει ολους αυτους τους δισκους εναν-εναν για να δει μηπως σε αλλον κοντρολερ-σερβερ θα λειτουργουσαν ; Αν εκανε αυτο, τι λες εσυ οτι θα αφηνε τους σερβερ της να καθονται και να δουλευουν με Degraded Arrays ; Θα αστειευεσαι φανταζομαι...
Τετοιες εταιρειες με το που θα πει ο κοντρολερ προβλημα στο ταδε πορτ, ο δισκος εχει φυγει κατευθειαν ειτε για RMA ειτε για τον καδο. Απλα πραγματα.
Εχεις βαλει ποτε σου 12+ δισκους να καθονται ο ενας διπλα στον αλλο ; Φανταζεσαι τωρα πως θα ειναι να εχεις σε ενα 4U κουτι 24 δισκους ; Βαλε τωρα και τους κραδασμους απο τα ανεμιστηρακια και απο τους αλλους 4U σερβερ που θα βρισκονται ανωθεν και κατωθεν οποτε καταλαβαινεις για τι επιπεδο δονησεων μιλαμε.
Ερωτηση τωρα:
Ξερεις πολλους consumer grade δισκους που α)Να αντεχουν (η τουλαχιστον να εχουν σχεδιαστει) για 24/7 χρηση ; β)Να αντεχουν τις δονησεις απο αλλους 23 δισκους που βρισκονται διπλα του επισης 24/7 ;
Αν εχεις πιασει ποτε στα χερια σου καποιον καλο κοντρολερ θα δεις οτι οι εταιρεις δε δινουν και μεγαλη σημασια στο SMART. Απεναντιας ομως βασιζονται πολυ στα Alarms του ιδιου κοντρολερ. Π.χ. υπαρχει η δυνατοτητα για buzz ή για αποστολη e-mail οταν ο κοντρολερ καταλαβει καποια δυσλειτουργεια (π.χ. "Drive power on reset detected"). Σπανια ομως θα βρεις δυνατοτητα ανολογη για ενημερωση σε αλλαγες η σφαλματα στο SMART.
Με λιγα λογια το SMART δεν φτιαχθηκε με γνωμονα την προβλεψη λαθων σε workstation περιβαλλον αλλα ως μια all around χρηση μη πω δε και πιο πολυ με γνωμονα τον απλο καταναλωτη.Μη μου το ιντερνετ ταραττε !
-
14-04-09, 21:58 Απάντηση: Μια άλλη θεώρηση για το SMART #8
Να ξεκαθαρίσουμε @ksipsi λίγο τα πράγματα γιατί μάλλον δεν έγινα σαφής.
1) Εγώ δεν είπα ότι το SMART είναι αξιόπιστο και ότι προβλέπει όσα εμείς επιθυμούμε.
Είναι ένα μηχανισμός που έχει δρόμο αρκετό να διανύσει ...
2) Στο συγκεκριμένο άρθρο η ίδια η google αναφέρει ότι χρησιμοποιούν consumer grade δίσκους, αν το αφισβητούμε αυτό δεν χρειάζεται να συζητάμε άλλο.
3) Αν ένας δίσκος βγαίνει εκτός λειτουργίας γιατί έχασε το partition table και εγώ σαν τεχνικός ψάχνω την σχέση που έχει αυτή η βλάβη με το smart τοτε είμαι για τα μπάζα.
Δεν μπορεί να γίνονται τέτοια λάθη σε μια έρευνα 100.000 δίσκων, εμένα μου φαίνεται κουφό. Αυτό δεν λες στην πρώτη σου απάντηση ή δεν κατάλαβα κάλα.
Υ.Γ. Εμενα πιο πολυ θα με ενδιεφερε να εβλεπα τα κατα τοπους εργοστασια της καθε εταιρειας παραγωγης δισκων, τι ποσοστο χαλασμενων δισκων βγαζει π.χ.
1)DOA
2)<3 months
3)<1 year
4)<2 years
5)>2 years
Conclusion of the paper.
In this study we report on the failure characteristics of consumer-grade disk drives. To our knowledge, the study is unprecedented in that it uses a much larger population size than has been previously reported and presents a comprehensive analysis of the correlation between failures and several parameters that are believed to
affect disk lifetime. Such analysis is made possible by a new highly parallel health data collection and analysis infrastructure, and by the sheer size of our computing deployment.
One of our key findings has been the lack of a consistent pattern of higher failure rates for higher temperature drives or for those drives at higher utilization levels. Such correlations have been repeatedly highlighted by previous studies, but we are unable to confirm them by observing our population. Although our data do not allow us to conclude that there is no such correlation, it provides strong evidence to suggest that other effects
may be more prominent in affecting disk drive reliability in the context of a professionally managed data centerdeployment.
Our results confirm the findings of previous smaller population studies that suggest that some of the SMART parameters are well-correlated with higher failure probabilities. We find, for example, that after their first scan error, drives are 39 times more likely to fail within 60 days than drives with no such errors. First errors in reallocations,
offline reallocations, and probational counts are also strongly correlated to higher failure probabilities.
Despite those strong correlations, we find that failure prediction models based on SMART parameters alone are likely to be severely limited in their prediction accuracy, given that a large fraction of our failed drives have shown no SMART error signals whatsoever. This result suggests that SMART models are more useful in
predicting trends for large aggregate populations than for individual components.
It also suggests that powerful predictive models need to make use of signals beyond those provided by SMART.Τελευταία επεξεργασία από το μέλος drhouse : 14-04-09 στις 22:12.
-
14-04-09, 22:34 Απάντηση: Μια άλλη θεώρηση για το SMART #9
Τελικά το νόημα της συζήτησης είναι να μην εμπιστευόμαστε τα σημερινά μέσα εποπτείας ?
Προγραμματισμός Εγκεφάλων http://www.chiptronic.gr
-
15-04-09, 02:09 Απάντηση: Μια άλλη θεώρηση για το SMART #10
Μαλλον δεν ημουν σαφης.
Αυτο που λεω ειναι οτι τα συμπερασματα που εχουν εξαχθει με consumer grade δισκους σε workstation περιβαλλον δεν ειναι και οτι καλλιτερο.
Αν για παραδειγμα χρησιμοποιουσαν enterprise δισκους σε workstation περιβαλλον, τοτε ναι. Αν ομοιως χρησιμοποιουσαν consumer grade δισκους σε "desktop" (δεν ξερω πως αλλιως να το πω...) περιβαλλον χρησης ομοιως και παλι ολα καλα.
Αλλα αυτος ο συνδιασμος απλα δεν αποτελει και την ορθοτερη και καταλληλοτερη βαση για να εξαχθουν συμπερασματα. Αυτο δεν σημαινει ομως οτι ειναι και αχρηστη. Απλα σου λεω οτι θα ηθελα να ξερω κι αλλες λεπτομερειες.
Για παραδειγμα οταν λενε οτι χαλασε ενας δισκος. Τι ακριβως εννοουνε ; Οτι εβγαζε σφαλματα με αυτον τον δισκο ο κοντρολερ ; Δεν παιρναγε τα τεστ της κατασκευαστριας εταιριας ; Δεν λειτουργουσε πουθενα αλλου ; Τι ακριβως δηλαδη ;
Επισης ο ελεγχος αυτος γινοταν σε ολους τους δισκους παντα ή για καποιους δεν μπαινανε ουτε καν στον κοπο ;
Πιστεψε με εχω συναντησει ερευνες στο επαγγελμα μου, που μια τοση δα μικρη λεπτομερεια μπορει να αλλαξει τα παντα. Ποσο δε μαλλον η αποκρυψη καποιων πραγματων.
Ελπιζω να εγινα κατανοητος αυτη τη φορα.
Αν οχι εδω ειμαστε, ευκαιρια να ανεβαινει και το Post Count μας.Μη μου το ιντερνετ ταραττε !
Παρόμοια Θέματα
-
HOL για αλλη μια φορα - κλασσικα
Από Vediovis στο φόρουμ VodafoneΜηνύματα: 3Τελευταίο Μήνυμα: 09-03-09, 12:58 -
ΣΕΡΝΟΜΕΘΑ, ΓΙΑ ΑΛΛΗ ΜΙΑ ΦΟΡΑ...
Από Avesael στο φόρουμ ADSLΜηνύματα: 45Τελευταίο Μήνυμα: 14-06-08, 19:04 -
Πρόταση για τροφοδοτικό για άλλη μία φορά
Από atom heart στο φόρουμ Κουτιά, τροφοδοτικά και ψύξηΜηνύματα: 29Τελευταίο Μήνυμα: 08-06-08, 05:51 -
9105:υπάρχει γρήγορος τρόπος για "μετάβαση" απο μία σύνδεση σε μια άλλη??
Από sadako στο φόρουμ ADSL & Broadband Hardware, routers και modems...Μηνύματα: 15Τελευταίο Μήνυμα: 03-02-06, 00:08
Bookmarks