nuovo έγραψε:Ντάξει.. σημαντική η συμβουλή να κρατάμε backup ... δε λέω ... αλλά μήπως θα έπρεπε ένα σοβαρό ΥΚ να ακολουθεί τις ίδιες του τις συμβουλές;
Κανονικά θα ακούγαμε δικαιολογίες όπως δεν έχουμε λεφτάααα... δεν έχουμεεε ... δεν έχουμεεε τπτ
Φυσικά και κρατάμε backup, αλλά δυστυχώς όχι τα αρχεία των χρηστών (e-mail και homepages δηλαδή) - ο όγκος είναι πραγματικά τεράστιος. Θυμίζω ότι ΔΠΘ δεν είναι μόνο η Πολυτεχνική. Ένα entry-level tape library επαρκές για να χειριστεί τόσα data κάνει αρκετές χιλιάδες ευρώ, και εδώ περιμένουμε χρόνια να φτιάξουν το ρημάδι το κλιματιστικό στο computer room που θέλει πολύ λιγότερα χρήματα!
nuovo έγραψε:αλλα από ότι βλέπω--> "Υπάρχει πλήρης εφεδρεία σε hardware".
Μα υπάρχει, γιατί φροντίσαμε να πάρουμε ότι χρειάζεται για να μην διακοπεί η υπηρεσία από hardware fault. Υπαρχουν 2 server (HP Proliant D320s) με διπλά τροφοδοτικά, παίρνουν ρεύμα από 2 UPS με ανεξάρτητες παροχές και υπάρχει backup diesel generator. Το storage είναι 10 + 2 spare δίσκοι σε RAID 1+0. Οι RAID controllers (HP SmartArray P400) έχουν battery backed-up cache, και υπάρχουν και δύο spare γιατί αν προκύψει πρόβλημα σίγουρα η HP θα κάνει μέρες να μας προμηθεύσει ανταλλακτικά.
Παρ'όλ'αυτά όμως, οι δίσκοι έχουν ένα BER της τάξης του 10^-14 πράγμα που σημαίνει ότι σε τόσο μεγάλα array θα συμβούν λάθη τα οποία θα περάσουν απαρατήρητα και θα δημιουργήσουν corruption στο file system.
nuovo έγραψε:Επίσης καλο θα ήταν κάποιοι να ψάξουν στο google--> "university email backup policy"... όχι τίποτα άλλο αλλά για να δουν και τι γίνεται παραέξω...
Καλή ιδέα! Για να δούμε τι γίνετε παραέξω:
Cornell University, Ιούνιος 2008, ακριβώς το ίδιο πρόβλημα που είχαμε και εμείς:
"A brief summary of the outage: It began on Sunday, June 15, between 11:30 a.m. and 12:30 p.m., when the Sun storage systems that support the Cornell email service spontaneously rebooted, bringing down the email system and severely damaging the file systems. From Sunday through Wednesday, June 18, CIT technical staff and engineers from Sun worked around the clock to restore the email service."
[
http://www2.cit.cornell.edu/computer/ne ... utage.html ]
"A major hardware crash June 15 left many Cornell users unable to receive e-mail for up to a week."
[
http://www.news.cornell.edu/stories/Sep ... an.ws.html ]
Princeton University, Φεβρουάριος 2009:
"The Office of Information Technology is working to correct an outage that is affecting e-mail delivery and other computer services for campus users. The outage began Friday, Feb. 6. E-mail has been restored to a majority of users, though e-mail services may still not be available for some campus users."
[
http://www.princeton.edu/main/news/arch ... l?section= ]
Εκτός από αυτα τα δύο Ivy League universities, πρόβλημα είχε πρόσφατα και το MIT:
"The day after the big outage, Schiller emphasized that SAN failures are rare, and that to buy enough redundancy to eliminate outages would have cost “money that MIT is not prepared to spend.”"
"Because the volume of data is very large, moving the data could take weeks to finish, Schiller said."
[
http://tech.mit.edu/V129/N30/email.html ]
To ΜΙΤ λοιπόν με ετήσιο budget >$1.2 δις (!) έκρινε ότι δεν είναι σκόπιμο να ξοδέψει τα χρήματα που χρειάζονται για απόλυτη ασφάλεια (σιγά μην υλοποιήσουν και IBM GDPS για mail!). Δεν τολμω φυσικά να συγκρίνω κανένα ΑΕΙ της Ελλάδας με το Princeton, το Cornell ή το ΜΙΤ, οπότε ας δούμε τι έγινε σε ένα αντίστοιχου μεγέθους με το ΔΠΘ:
Washburn University, 23 Αυγούστου 2009 - παρόμοι πρόβλημα με εμάς, χρόνος επίλυσης προβλήματος 1 εβδομάδα:
"We have completed the diagnosis of the email crash yesterday afternoon. From the indications, the mail store has a corrupt partition table the address book the computer uses to locate specific information on the disk. This was likely the result of a system problem that occurred early on Thursday morning of this past week. The problem went undetected until yesterday, when we believe the system attempted to locate data in an area of the corrupted partition table and failed."
[
http://www.washburnlaw.edu/emailupdate.php ]
nuovo έγραψε:-Υ.Γ.: Πιο γελοία ανάλυση-εξήγηση αστοχίας δεν έχω ξανα-ματα-δει.
Γελοίο ή όχι, αυτό συνέβη και εγώ προσωπικά δεν κοιμήθηκα 2 βράδυα και ξαναξεκίνησε η υπηρεσία εντός ~10 ωρών και το προσωπικό του ιδρύματος είχε ανακτημένα τα mailboxes του εντός των πρώτων 24 ωρών. Σύντομα θα έχουν και οι υπόλοιποι. Τα data είναι πολλά και απλά η αντιγραφή τους θα ήθελε ~10 ώρες... στην προκειμένη περίπτωση όμως χρειάστηκε να γράψω λογισμικό το οποίο κάνει διάφορα sanity checks (δυστυχώς περίπου το 2.8% δεν είναι salvageable) στα Mailboxes πρωτού τα κάνει import και αυτό απαιτεί παραπάνω χρόνο.
Αν απλά έκανα recover από backup, θα είχατε όλοι τα mail όπως ήταν 1 ή και 2 μέρες πιο πριν! Με την μέθοδο αυτή δεν χάσατε κανένα, απλά υπήρχε διακοπή της υπηρεσίας για λίγες ώρες. Ε, τι να κάνουμε, μέχρι και το Gmail είχε βγεί εκτός κανα δύωρο πριν λίγες μέρες, τι περιμένεις από εμάς; Το ΚΔΔ είμαστε 5 άνθρωποι, και διαχειριζόμαστε όλες τις υπηρεσίες + το δίκτυο δεδομένων (200 switch από εδώ μέχρι την Ορεστιάδα).
--kkonstan
Υ.Γ. Ευτυχώς υπάρχουν και άτομα που έχουν αντίληψη της δυσκολίας του έργου που επιτελούμε και μας ευχαρίστησαν για την άμεση επαναφορά και αποκατάσταση της υπηρεσίας...