Επιστροφή στο Forum : Επιλέγοντας μεταξύ των projects
Κατ'αρχήν να πω οτι τρχω το Folding@Home απο το 2004, oταν το ειχε περιλάβει σαν beta η GoogleToolbar. Το εβαλα σε διαφορα PCs και το "ξεχασα".
Τελευταία μπήκα στη διαδικασία να ξαναδώ τα διάφορα Distributed Computing projects, τόσο απο τεχνικής πλευρας όσο και απο πλευρας προσφοράς στην επιστήμη (και τον ανθρωπο).
Προσεξα επίσης ενα σχόλιο στη σελιδα της Wikipedia για το Folding, οτι οι τελευταίες επιστημονικές εξελίξεις καθιστουν την μεθοδο "somewhat obsolete" καπως παρωχημένη... Γιατι οι περισσοτεροι που συμμετέχουμε υποθέτω το κάνουμε για να βγει κατι καλό, όχι ανταγωνισμό στο σκορ, σαν να προκειται για benchmark.
Το έψαξα αρκετά, κυρίως τεχνικά, εγκατέστησα σχεδόν όλους τους agents (του BOINC, grid.org, WCG κλπ) αλλά και απο πλευρας χρησιμοτητας.
Τα συμπεράσματα τα εγραψα στο:
http://www.hyper.net/dc-howto.html
How-To: Distributed Computing projects that benefit humanity (http://www.hyper.net/dc-howto.html)
(την έγραψα στα αγγλικά, γιατί το ενδιαφέρον στην Ελλάδα είναι μικρό κι ετσι κι αλλιως οποιος Ελληνας θέλει να συμμετάσχει θα πρέπει να ξέρει πεντε Αγγλικά).
Οποιος ενδιαφέρεται να κάνει DC πιστευω οτι θα βρει τις πληροφορίες πολύ χρήσιμες.
Αν έχετε παρατηρησεις / σχολια / διορθώσεις, θα χαρώ να τις ακουσω (και να τις συμπεριλάβω).
Μφχ, Δ
Να συμπληρώσω ότι, απ'ότι έχω καταλήξει, τα πιο σημαντικό projects αυτή τη στιγμή είναι το Human Proteome Folding και το Rosetta@Home.
Το Folding@Home έχει ήδη συγκεντρώσει ΣΤΑΘΕΡΗ (όχι δηλ peak) υπολογιστική ισχύ πάνω απο 200 TFLOPs που ξεπερνά τον μεγαλύτερο υπερυπολογιστή στον κόσμο, τον Blue Gene (που επίσης φτιάχτηκε μολις το 2005 για folding πρωτεινων).
Τελος, να προσθέσω οτι τα projects που έχουν απο πίσω εταιρίες φροντιζουν να βάζουν ως "κράχτη" το όνομα καποιας ασθένειας, π.χ. FightAIDS της WCG/IBM αλλά και CureCancer της grid.org, και ComputeAgainstCancer.com της PARAGON
Στην πραγματικότητα όλοι οι παραπάνω κάνουν κάποια μορφης ανάλυση πρωτεινων, πχ το CureCancer της Οξφορδης τεσταρει 3.5δις χημικες ουσίες στις καρκινικές πρωτεινες της λευχαιμίας και του καρκινου του παγκρεατος. Το θέμα είναι ποιά projects είναι πιο χρήσιμα και για μένα το #1 κριτήριο δεν ειναι τοσο οι δημοσιευσεις, όσο ειναι τα citations στη δουλειά τρίτων ερευνητών.
Παντως, το κυριο συμπέρασμα για όποιον θέλει να συνεισφέρει για την ΟΥΣΙΑ (οχι δηλ. για το σκορ) ειναι με πρώτη ευκαιρία να βάλει BOINC ωστε μέσω αυτου να μπορεί να δίνει σε πολλους.
ΥΓ: Τα γραφω αυτα (και διαφορα αλλα) στο πιο πανω αρθρο μου, για οποιον ενδιαφέρεται. Επισης θα χαρώ να ακουσω παρατηρήσεις ή διορθώσεις.
Παντως, για να διευκρινήσω κάποια πράγματα σε σχέση με τη χθεσινή συζήτηση στο Για διαβάστε αυτό (http://www.adslgr.com/forum/showthread.php?t=29556) εγώ δεν θα προτεινα σώνει και καλά BOINC αντι για F@H για όλους.
Το Folding@Home ειναι απλουστατο, το βαζεις σε 1' και το ξεχνάς. Απροβλημάτιστο. Ακομα πιο ευκολο στη μαζική εγκατάσταση, π.χ. σε 10-20-30 PCs μαζεμένα.
Ενω το BOINC ειναι πιο μπερδεμένο στο setup (την πρωτη φορά, μεχρι να καταλάβεις το σκεπτικό του) και θέλει κάποια παρακολουθηση (ειδικά οταν κανεις το τρέχει σε συνδυασμό με περισσοτερα του ενος projects). Και αυτη τη στιγμή, τόσο το Rosetta όσο και το SIMAP που προτεινω μεταξύ άλλων (βλ. αρθρο στο URL στο signature μου) εχουν τα προβληματάκια τους (σκαει η εφαρμογή, ή μενει κολλημένη στο 1% κλπ κατι που προσπαθουν να λυσουν με τη βοηθεια των χρηστων).
Η ουσία πάντως είναι να εξοικειώνονται οι χρήστες με την ιδέα του grid computing.
Έστειλα το παρακάτω στα ελληνικά ΜΜΕ (εντυπα και ηλεκτρονικά καμμια 500αριά δνσεις συνολο).
Είμαι περίεργος πόσα θα αναφερθούν στο θέμα. (κάποια, οπως "ΤΑ ΝΕΑ" με ενημέρωσαν ότι θα γράψουν άρθρο σχετικά απο την περασμένη φορά που αναφέρθηκα, στις αρχές Ιαν-06, στο Folding@Home).
Παντως το νέο κείμενο το έγραψα στα Αγγλικά, γιατί το προηγούμενο στα Ελληνικά (που το δημοσιευσα τοσο εδώ όσο και στο blog μου) το διάβασαν κατι λιγότερο απο 500 άτομα συνολικά, ενω το αγγλικό ήδη το διαβάζουν 500-800 άτομα ΤΗ ΜΕΡΑ.
Επιτρέψτε μου να επανέλθω στο θέμα της προσφοράς του "ελεύθερου χρόνου" (idle time) του καθενός "απλού" ηλεκτρονικού υπολογιστή σε κοινωφελή επιστημονική έρευνα. Εψαξα καλύτερα το θέμα τις τελευταίες εβδομάδες (αν και έτρεχα τέτοια προγράμματα εδώ και χρόνια, δεν είχα ασχοληθεί ποτέ με τις λεπτομέρειες).
Αυτή τη στιγμή είναι ενεργά πάνω από 20 projects, με θεματολογία που αρχίζει από το κλασσικό, γνωστό λίγο-πολύ σε όλους (συμμετέχουν πάνω απο 5 εκ ανθρωποι) SETI@Home του Berkeley University που ασχολείται απο το 1999 με την αναζήτηση εξωγήινης νοημοσύνης, μέχρι τα πιο προσφατα (και με μάλλον πιο "απτούς" στοχους) projects για ιατρική έρευνα (Rosetta@home, HPF, Folding@home, Predictor@home, SIMAP) ή αναζήτηση φαρμάκων (π.χ. CureCancer της Οξφόρδης, FightAIDS@Home, Find-A-Drug) ή με αντικείμενο την μελέτη των αλλαγών του κλίματος της γης τον 21ο αιώνα (ClimatePrediction.Net) που είναι ίσως η μεγαλύτερη απειλη για τον πολιτισμό μας κ.ά.
Ολα τα projects που προανέφερα είναι πολύ γνωστά στους "πολίτες του Ιντερνετ" και ειδικά σε οσους ειναι θετικής κατευθυνσης σπουδών, με εκατοντάδες χιλιάδες ή και εκατομμύρια συμμετέχοντες απ'ολο τον κόσμο. Ωστόσο σε χώρες όπως η δική μας, παραμένουν σχεδόν άγνωστα στο ευρύ κοινό.
Στα πλαίσια της προσέλκυσης νέων "εθελοντών δωρητών CPU time" το βρετανικό BBC θα βγάλει σε λίγες βδομάδες σειρά ντοκυμαντέρ για τις αλλαγές στο κλίμα και παράλληλα θα μοιράζει το σχετικό πρόγραμμα BOINC/CPDN για συμμετοχή στο ClimatePrediction.Net (στο οποίο συμμετέχουν πολλά βρετανικά πανεπιστήμια). Αντιστοιχα ρεπορτάζ έχουν κάνει ΜΜΕ όπως το CNN.
Πιθανότατα, ακόμα περισσότεροι Ελληνες θα συμμετάσχουν σε τέτοια προγράμματα, αν πληροφορύνταν για την ύπαρξη αυτων των projects (ειδικά όσοι έχουν ADSL και σχετικά συγχρονους Η/Υ), αφου αλλωστε δεν απαιτουν καμμια ιδιαίτερη γνώση.
Για μια αναλυτική περιγραφή του θέματος, με πολλές παραπομπές, screen-shots απο τα προγράμματα κλπ, μπορείτε να ριξετε μια ματιά στο:
http://www.hyper.net/dc-howto.html
(το εγραψα στα Αγγλικά, γιατί αφενός δεν υπήρχε αντίστοιχη συνοψη στο Ιντερνετ με έμφαση στα life-science projects και αφετέρου το ελληνοφωνο κοινό ειναι πολύ μικρό κι αλλωστε οποιος θέλει να συμμετάσχει πρέπει να ξέρει και λίγα Αγγλικα). Αν θελετε ιδέες, στο τέλος έχω και μια παράγραφο "In the Press" με παραπομπές σε αφιερώματα ξένων ΜΜΕ στο grid computing, π.χ. του CNN:
http://edition.cnn.com/2004/TECH/11/17/spark.grid/
http://www.cnn.com/2003/TECH/ptech/06/05/popsci.supercomputing/
Πιστεύω ότι το θέμα είναι και χρήσιμο αλλά και ενδιαφέρον.
Ευχάριστες εξελίξεις στο χώρο του DC αυτες τις μέρες:
Το ΒΒC ξεκινα στις 20-Φεβ σειρα ντοκυμαντερ για την αλλαγη του κλίματος και θα μοιράζει μια απλουστευμένη εκδοση του BOINC μαζι με το CPDN http://bbc.cpdn.org/ . Σας το είχα γράψει (http://www.adslgr.com/forum/showpost.php?p=468275&postcount=4), αν και ήταν "μυστικό", πριν κανα μήνα.
Αυτο θα δωσει μεγάλη δημοσιοτητα στο θεμα διεθνως και θα διευρυνει το κοινό του DC σε απλους χρηστακους που θα ηταν δυσπιστοι να τα τρεξουν διαφορετικά.
Εφοσον τρέχετε ήδη BOINC, δεν χρειαζεται να εγκαταστησετε την απλουστευμενη εκδοση απο το BBC, απλά καντε attch το URL
Περισσοτερες πληροφορίες στο Project URL ( http://bbc.cpdn.org/ ) ειτε στο BBC
http://bbc.co.uk/climatechange
http://news.bbc.co.uk/1/hi/sci/tech/4702636.stm
http://www.bbc.co.uk/sn/hottopics/climatechange/images/aboutexperiment_small.gif
Σημ: αν η υδρόγειος σφαίρα του CPDN ΔΕΝ περιστρέφεται τότε μπορείτε να πάτε στο IE -> Tools -> Internet Options -> Advanced Options -> Multimedia -> Play animations in Web pages και να το ενεργοποιήσετε. Αλλιως δεν θα βλέπετε ουτε τα γουστόζικα animated smilies του adslgr π.χ. :worthy:
Σημ2: Το CimatePrediction ειναι το πιο απαιτητικό απ'ολα τα κοινωφελή προγράμματα, γιατί τρέχει όλη την εφαρμογή εξομοίωσης του κλίματος της Γης, που γραφτηκε για "μεγάλους" Η/Υ.
Χρειάζεται κάπου 1.5GBytes στο δίσκο και το τελικό αρχείο αποτελεσμάτων που στέλνει πίσω είναι μερικές εκατοντάδες MBytes, οποτε πρακτικά απαιτεί γρήγορο Ιντερνετ (ADSL). Το κάθε work-unit (μοντέλο του κλίματος για μερικές δεκαετίες) κρατάει μήνες στον Η/Υ μας. ΜΗΝ εγγραφείτε αν δεν έχετε γρήγορο Η/Υ που να ειναι ανοικτός τουλάχιστον 8ωρες/μερα.
http://www.climateprediction.net/images/bbc_promo2.jpg
Το περασμένο Σαββατοκύριακο έγραψα τις σελίδες του Rosetta@home και του Human Proteome Folding Project στην Wikipedia (αγγλικά):
http://en.wikipedia.org/wiki/Rosetta%40home
http://en.wikipedia.org/wiki/Human_Proteome_Folding_Project
και τις δυο τις ενέκριναν οι αντιστοιχοι head scientists των projects (Prof. David Baker, στο Baker Lab, Washington University και ο Prof. Richard Bonneau στο New York University).
Ρώτησα χτές τον Head Scientist του Rosetta@Home, εφόσον
1/ το πρόβλημα της πρόβλεψης της δομής των πρωτεϊνών είναι τόσο κρίσιμο και με τόσες προεκτάσεις σε ιατρικές εφαρμογές και
2/ με τα τρέχοντα δεδομένα έχουν τον καλύτερο αλγόριθμο επίλυσης (βλ. σύγκριση που έκανε πριν λίγες μέρες ο head scientist του Predictor@Home, http://predictor.scripps.edu/rosetta.html )
ΓΙΑΤΙ δεν τους παρέχονται περισσότεροι ΔΗΜΟΣΙΟΙ υπολογιστικοί πόροι / υποδομες ώστε να προχωρήσει ταχύτερα η έρευνα, παρά βασίζονται σε "εθελοντές" ?
Μου απάντησε ότι τους παρέχονται περισσότεροι υπολογιστικοι πόροι σχεδόν απ'ολα τα δημόσια ερευνητικά projects, αλλά και πάλι δεν αρκούν.
http://www-03.ibm.com/servers/deepcomputing/images/supercpu.jpg
Για παράδειγμα για το 2006 τους έδωσαν 5.000.000 ώρες στον Blue Gene (της IBM, θυμίζω ότι είναι ο ταχύτερος υπερ-υπολογιστής στον κόσμο), που ήταν και η μεγαλύτερη παροχή που δόθηκε σε project φέτος, λεπτομέρειες στο
INCITE Award Factsheet 31-Jan-2006 (http://72.14.203.104/search?q=cache:dkcheEi0bi8J:nccs.gov/news/pr2006/FY2006_INCITE_Award_Factsheet01312006final.pdf)
(το οριτζιναλ ειναι PDF, αυτο ειναι το HTML μεσω Google-cache)
Επιλέγω www.climateprediction.net επειδή πρέπει να σώσουμε τη Γη.:p
Επιλέγω www.climateprediction.net επειδή πρέπει να σώσουμε τη Γη.:p
Σήμερα έγραψα στο σχετικό thread του Rosetta@home
10 reasons I crunch R@H and you should too (http://boinc.bakerlab.org/rosetta/forum_thread.php?id=1433)
τους 10 δικούς μου λόγους που τρέχω το Rosetta:
1) Protein structure prediction, as well as protein design and docking, offer potential for breakthroughs in medicine and treatments for myriad diseases
2) The Rosetta approach seems very promising, as shown in previous biannual CASP experiments it's one of the most successful prediction pipelines available today
3) International (scientists from all over the world) project team
4) The research, i.e. the Rosetta software itself, is being made freely available to the academic community. And it's already used by others (like HPF/WCG) so there is a multiplier effect.
5) Project team is very transparent and responsive, with very little effort one can monitor daily progress and actually understand what it's all about, what his own PC is doing and benchmark results in Top Prediction.
6) No wasting of crunchers' CPU time (initial replication=1, quorum=1), even if it affects accurate crediting for the time being
7) Variable run-time work-units, allowing one to drastically reduce Internet traffic
8) Friendly and active community
9) Nice graphics screensaver
10) Gave me incentive to learn more about computational biology
Την περασμένη βδομάδα ξεκίνησε το CASP experiment (http://predictioncenter.gc.ucdavis.edu/) όπου ανα 2ετία οι επιστημονικές ομάδες απόλο τον κόσμο, που ασχολούνται με το folding / protein prediction "συναγωνίζονται" για να δούν πόσο επιτυχημένη είναι η τεχνική που έχουν αναπτύξει.
Περισσότερα στο
http://predictioncenter.gc.ucdavis.edu/casp7/Casp7.html
Επίσης, να προσθέσω ότι σταμάτησα να συμμετέχω στο HPF/WCG (Human Proteome Folding).
Αν και θεωρητικά το HPF είναι ίσως το πιο σημαντικο project, καθώς προσπαθεί να "αποκωδικοποιήσει" (computationally, αντι experimentally που θα χρειαζοταν χρόνια) το human proteome και ιδιαίτερα να εστιάσει σε cancer biomarkers και human secreted proteins, στην πράξη έχει πολλές αδυναμίες.
Η μια αδυναμία είναι ότι χρησιμοποιεί ως τώρα την παλιά (ετους 2004) έκδοση 4.2x του Rosetta software, που δεν κάνει full-atom relax και άρα δεν έχει μεγάλη ακρίβεια. Μπορεί να ήταν η καλύτερη επίδοση κατά το CASP6 (2004) αλλα διαβασα ότι η predicted structure χρειάζεται να βρισκεται τουλάχιστον <3 Ångström απο την native structure για να είναι χρήσιμη σε drug design. Το Rosetta αυτο τον καιρό βγάζει νέες εκδόσεις του software κάθε 2 βδομάδες.
Το HPF/WCG ετοιμάζεται να μπει τωρα στην φάση 2, που θα χρησιμοποιεί πιο πρόσφατη έκδοση του Rosetta v5.x, full-atom-relax mode. Και θα ξανατρέξει τις ίδιες πρωτείνες, με το νέο software. Αντε αυτό λύθηκε.
Αλλά το πιο ενοχλητικό με το HPF/WCG είναι ότι η IBM (που τρέχει το WCG και κάνει το grid-ification του κάθε software), χρησιμοποιεί στον BOINC server settings initial replication και quorum που ΣΠΑΤΑΛΟΥΝ ΑΠΙΣΤΕΥΤΟ ΠΟΣΟΣΤΟ της δωριζόμενης (απο μας) υπολογιστικής ισχύος. Αυτό θα μπορούσε να είναι δικαιολογημένο σε κάποια άλλα projects, που στέλνουν το ΙΔΙΟ ΑΚΡΙΒΩΣ workunit σε 5-7 υπολογιστές, και αποδέχονται το αποτέλεσμα μόνο αφού λάβουν 3-4 ίδια results. Αλλά ειδικά στο Rosetta και με το σκεπτικό που δουλεύει, είναι απίστευτη σπατάλη στους δωριζόμενους υπολογιστικους πόρους.
Αυτό το κακό ξεκίνησε από το SETI@home, που είχαν ήδη απο το 2002 τόσους "τρελλαμένους" που ηδη απο το SETIclassic δωριζαν υπολογιστική ισχύ αρκετή για να επεξεργαστούν κάθε workunit ΕΠΤΑ (7) φορές. Και το αντέγραψαν και αρκετά άλλα BOINC projects, κυρίως για να επαληθευουν τα credit claims, ΕΙΣ ΒΑΡΟΣ ΤΗΣ ΣΥΝΟΛΙΚΗΣ ΕΠΕΞΕΡΓΑΣΤΙΚΗΣ ΙΣΧΥΟΣ που πέφτει στο 1/5ο της raw!!!
Απο αυτη την άποψη μόνο, το Folding@home είναι καλύτερο απο τα περισσότερα BOINC projects, οτι δηλαδή τουλάχιστον δεν σπαταλάει την υπολογιστική ισχύ (ρευμα κλπ) που πληρώνουμε εμεις οι δωρητές από την τσέπη μας.
@ ADSLgr.com All rights reserved.