PDA

Επιστροφή στο Forum : Q9650 (old: PC για floating point double @ 4Gb)



Σελίδες : [1] 2

Hex
21-01-09, 15:53
Γεια σας και παλι.

(Ο παλαιος thread δεν μου επετρεψε να προσθεσω ακομη ενα
μηνυμα.)

Επειδη καταφερα να αναστησω δυο παλαιους codes (fortran), τωρα
εχω προθεση να αγορασω δυο ιδια συστηματα. Τα χαρακτηριστικα τους
ειναι:

Intel Q9650 3GHz Box Euro 330 (δεν υπαρχει tray προς το παρον)
Mobo MSI P45 NEO-F, S775 Euro 102
Graphics: VGA EN9500GT / DI/1G/A W/ CUDA Euro 85
RAM: 4 x Kingstone KHX8500D2 / 2G DDR2-1066 Euro 100
PS: gamer 750 Euro 56
HD: SEAGATE ST3750330AS 750G / 32MB Euro 101
Case: Lian Li PC-7FB Black EURO 100

Ισως: Windows Vista Home Basic 64bit English DVD Euro 90

Τα mobo και RAM ποσο καταλληλα ειναι για το cpu?
Αλλα comments?

mach
21-01-09, 16:05
Καλά είναι όλα, μόνο περίμενε λίγες μέρες να μας "μπει" για καλά η μείωση τιμών της ιντελ, λογικά ο q9650 θα σταθεροποιηθεί γύρω στα 300€.

Επίσης το τροφοδοτικό είναι λίγο ύποπτο (750άρι με 60€)... Πάρε κάποιο 500άρι ή 600άρι αξιόπιστης μάρκας (corsair, enermax, seasonic). Δεν υπάρχει λόγος για περισσότερα watt.

crypter
21-01-09, 20:58
Οντως για τροφοδοτικο δες κατι σαν αυτο (http://www.plaisio.gr/product.aspx?product=1084569&category=69977705&page=2&x=30&catalog=20&MSCSProfile=DCCDF22EB27065BE6D1C166B2ADF9B3BC9BB165546AA0DFA8397A4FA182947C64EB403FF62961432AB6A972C004755C2F68CF4B902D0 3C9C8A0D0E0E12D56BF166F84C0954EDDC0E5D3C2D04A4D360505A100FA79C34ED4AC66D631DDC3BA1659935F6BF6349A6301A80D83F139212BFA535 92A85287A6B3C13B2AA5233F467A) και ακομα καλυτερα να παρεις και απο 2 καλα ups.

Hex
21-01-09, 23:50
Νομιζα ο,τι τα 330 ευρω για τον Q9650 ειναι η νεα “χαμηλη” τιμη.

Οι διακυμανσεις ειναι:

http://www.skroutz.gr/s/53713/Intel-Core-2-Quad-Q9650.html


Το PSU δεν πρεπει να δουλευει στα ορια της ισχυος του γιατι
θα παραξει σχετικα μεγαλες ποσοτητες θερμοτητος. Για αυτο
χρειαζεται ενα ανετο περιθωριο.

Η μαρκα που μου προτειναν ειναι τρεχαγυρευε. Μαλλον θα το ψαξω.

Υπαρχει κανεις που εχει πρωτο χερι εμπειριας απο PSU στα ~750W
που να κανει πολυ λιγο θορυβο?

Για το mobo θα παω στο P5Q.

crypter
21-01-09, 23:55
Υπαρχει κανεις που εχει πρωτο χερι εμπειριας απο PSU στα ~750W
που να κανει πολυ λιγο θορυβο?
Δεν χρειαζεσαι τοσο πολυ, παντως και το corsair στα 620w που εχω ειναι πληρως αθορυβο (σε λογικη αποσταση 1-2 μετρων). Δεν πιστευω να εχεις προβλημα. :)

andreasp
22-01-09, 00:14
Υπαρχει κανεις που εχει πρωτο χερι εμπειριας απο PSU στα ~750W
που να κανει πολυ λιγο θορυβο?

Για το mobo θα παω στο P5Q.

Δεν χρειάζεσαι παραπάνω απο 400-450watt τροφοδοτικό.

Hex
22-01-09, 00:18
@crypter & @andreasp

Ευχαριστω.

mach
22-01-09, 00:24
Το PSU δεν πρεπει να δουλευει στα ορια της ισχυος του γιατι
θα παραξει σχετικα μεγαλες ποσοτητες θερμοτητος. Για αυτο
χρειαζεται ενα ανετο περιθωριο.

Η μαρκα που μου προτειναν ειναι τρεχαγυρευε. Μαλλον θα το ψαξω.

To σύστημά σου, είναι ζήτημα αν θα ξεπερνάει τα 250W συνολικά, ακόμα και με φορτίο.
Συνεπώς πάρε ένα ποιοτικό, efficient τροφοδοτικό μέτριας ισχύος. Συνήθως όλα έχουν 14άρηδες αθόρυβους ανεμιστήρες σε πολύ χαμηλές στροφές. Δεν ακούγονται καθόλου.

nfotis
22-01-09, 12:16
Καλώς τον Hex, κι έλεγα που χάθηκες... ;)

Θα πρότεινα να περιμένεις λίγο τους νέους τετραπύρηνους χαμηλής κατανάλωσης που έρχονται οσονούπω (65 αντί για 95 Watts ο επεξεργαστής είναι σημαντική διαφορά, αν δουλεύεις 24/7 το μηχάνημα) - η ταχύτητα πρέπει να είναι ίδια.

Για μητρική, η πλειοψηφία ψηφίζει την Asus P5Q για Intel 775 socket.

Από τη στιγμή που θέλεις μνημοβόρα προγράμματα, θα πρότεινα να πας σε Linux (αν θυμάμαι καλά, τα Vista περιορίζονται στα 3.5 GBytes, δεν είμαι σίγουρος ότι η 64bit έκδοση ξεπερνάει αυτό τον περιορισμό του BIOS).

Εφόσον έχεις source code, ο συνδυασμός Linux + Intel compilers πρέπει να είναι εξαιρετικά ισχυρός (δεν ξέρω πόσο καλός είναι ο GCC σε τέτοιο κώδικα).

Για τροφοδοτικό, θα πρότεινα κάτι σαν το Toughpower 550 και όχι παραπάνω σε Watts.
Για κάρτα γραφικών, αν θέλεις να παίξεις με CUDA θα πρότεινα Nvidia 8800GT 512MB ή 9800GT 512MB (λίγο ακριβότερη, αλλά σαφώς ισχυρότερη υπολογιστικά)

Για μνήμη, δηλώνω άγνοια (κανόνισε στο μαγαζί να έχεις τη δυνατότητα αντικατάστασης αν βγάλει πρόβλημα ή ασυμβατότητες).

Για σκληρό δίσκο, έχω ακούσει εξαιρετικά θετικά σχόλια για τους Western Digital 640 GBytes.

Ν.Φ.

Hex
22-01-09, 17:03
@mach

Θα αγορασω ενα PSU καπως μικροτερο – πιθανον τον Coolmaster 620.
Ευχαριστω.



@nfotis

Γεια μας. Παλι εδω. Εχω πηξει στο programming και bugs σε fortran και C.

Το διαβασα για τους ερχομενους Q9650e αλλα νομιζω αυτοι θα αρριβαρουν
το επομενο quarter. 'Η πιο νωρις?

Αρχικα ζητησα το P5Q (που το ειχες προτεινει στον προηγουμενο thread),
αλλα μου ειπαν (λανθασμένα) ο,τι αυτος χρησιμοποιει το P43 chipset.
Μετα ανακαλυψα το λαθος.

Η 9800GT με 1GB εινα αρκετα ακριβη. Δεν βρηκα ακομη την 8800GT με 1GB.

Ο WD 640 εχει 16MB cache, ενω ο seagate 750 32MB.

Patentman
24-01-09, 11:47
Αρχικα ζητησα το P5Q (που το ειχες προτεινει στον προηγουμενο thread),
αλλα μου ειπαν (λανθασμένα) ο,τι αυτος χρησιμοποιει το P43 chipset.
Μετα ανακαλυψα το λαθος.

Mε P43 + ICH10R ειναι η P5QL-E (http://www.asus.com/products.aspx?modelmenu=2&model=2272&l1=3&l2=11&l3=710&l4=0) (η οποια ειναι παρα πολυ καλη).
Εφοσον θα βαλεις DDR2 δεν εχει καμια διαφορά το P43 απο το P45.
Η διαφορά του δευτερου ειναι οτι υποστηριζει crossfire και μνημη DDR3 (αν και γινεται να ενεργοποιηθει και στο P43 η DDR3 απλα δεν το εχουν βαλει οι κατασκευαστες για να μην δωσουν φθηνο προϊον), καμια αλλη διαφορά.
Στην περιπτωση της P5Q (P45) που δεν εχει ουτε crossfire, ουτε μνημη DDR3 τοτε απλα πληρωνεις παραπανω λεφτα για το ιδιο πραγμα.
Εκεινο που παιζει ρολο ειναι το ICH10R, μιας και απο αυτο εχεις το Intel Fast Memory Access Technology.
Το P43 (http://www.intel.com/products/desktop/chipsets/p43/p43-overview.htm) με το P45 (http://www.intel.com/products/desktop/chipsets/p45/p45-overview.htm) δεν εχει διαφορά δηλαδη, ειναι το ιδιο τσιπακι με κλειδωμενο το crossfire.

Σε πολλα τεστ που εχουν γινει αναμεσα σε μητρικες P43 και P45 (http://www.tweaktown.com/articles/1527/12/asrock_p43_and_p45_motherboards_reviewed/index.html) του ιδιου κατασκευαστη οι επιδοσεις ειναι ιδιες. Τοσο σε synthetic, οσο και σε real life εφαρμογες.
Θα βρεις πολλα παρομοια τεστ και σε αλλες μαρκες.
Οποτε μην σου δινουν την λανθασμενη εντυπωση πως προκειται για κατι υποδεεστερο.
Προκειται για κατι που απευθυνεται σε οσους δεν πληρωνουν marketing και δεν τους νοιαζει το crossfire.

Θα μπορουσες να βαλεις και μια μητρικη με P35 + ICH9R, παλι την ιδια αποδοση θα ειχες. Απλα καταναλωνει λιγακι περισσοτερο ρευμα, μιας και το P43/P45 ειναι σμικρυνση του P35.

Hex
25-01-09, 11:46
Απο το site της ASUS:


P5QL-E DDR2 1066(O.C.)/800/667


P5Q DDR2 1200/1066/800/667

Hex
29-01-09, 22:16
Εχει κανεις ιδεα για το ακολουθο:

To ΒΟΧ του Q9650 εχει ηδη μια θερμικη παστα. Μηπως ειναι προτιμοτερο
να βαλω νεα παστα και οχι αυτη της Intel? Αυτη που εχω εχει thermal conductivity
4.5W/m**2/C.

nfotis
30-01-09, 13:34
Εφόσον πάρεις συσκευασία BOX (με ανεμιστήρα), η εταιρεία δίνει εγγύηση 3 χρόνια για τον επεξεργαστή.
Αρα δε νομίζω ότι υπάρχει λόγος να σκοτίζεσαι για τη πάστα που δίνει στο πακέτο, η εταιρεία θα έχει φροντίσει να βάλει ότι χρειάζεσαι.

Αν σκοπεύεις να κάνεις overclocking ή/και να δουλεύεις με καύσωνα το μηχάνημα σε δωμάτιο χωρίς κλιματισμό, τότε ΙΣΩΣ να είναι σημαντικό να αλλάξεις πάστα.

Εφόσον πάρεις συσκευασία TRAY (και βάλεις δικό σου ανεμιστήρα), είναι δική σου αρμοδιότητα (και ευθύνη) να ταιριάξεις μια θερμοαγώγιμη πάστα όπως της Arctic Silver.

Ν.Φ.

nikosl
31-01-09, 05:30
Να βάλεις και τον intel fortran compiler για να ξεζουμίσει τον επεξεργαστή 100%.

shodanjr_gr
31-01-09, 15:37
Για κάρτα γραφικών, αν θέλεις να παίξεις με CUDA θα πρότεινα Nvidia 8800GT 512MB ή 9800GT 512MB (λίγο ακριβότερη, αλλά σαφώς ισχυρότερη υπολογιστικά)


Μία σημείωση. Η 9800 και η 8800 έχουν το ίδιο core και εφάμιλλες επιδόσεις. Απλά παίζει η 9800 να είναι στα 55nm ενώ όλες οι 8800 είναι στα 65nm.

ownagE_
31-01-09, 15:41
Μία σημείωση. Η 9800 και η 8800 έχουν το ίδιο core και εφάμιλλες επιδόσεις. Απλά παίζει η 9800 να είναι στα 55nm ενώ όλες οι 8800 είναι στα 65nm.

Ακριβώς, όπως τα λες είναι.

Hex
01-02-09, 21:12
The story so far:

PSU ειχε προβλημα με την τροφοδοσια των SATA. Επιστροφη.
Ο HD εκανε περιεργους θορυβους. Επιστροφη.

Q9650 και P5Q ειναι οκ.

Με προσωρινα PSU και HD το συστημα κανει POST ok.

Θερμοκρασια του 9650 στο BIOS 29 βαθμοι.

Το BIOS δειχνει την DDR2 @ 800MHz μαλλον καποιο λαθος εχει γινει.

Αλλαξα την συχνοτητα του FSB και κατεληξα σε NO POST. Εβγαλα την
μπαταρια του BIOS-ROM και εκανε reset στα default. ΟΚ.


Εκατασταση των XP 64, Mandriva 2009 KDE, Ubuntu amd64,
Fedora 10 64 kai Open SUSE 11.1 64 KDE-4 (φανταστικος installer) ηταν ΟΚ.


Με το XP 64 εκανα recompile εναν παλιο (δηλ 14χρονο) fortran code
με το gfortran. Το executable τρεχει μονο σε ενα core (at a time)
και ειναι 2 φορες πιο γρηγορο απο το P4 Prescott 3.2GHz.

Κατεβασα τον compiler της Intel αλλα δεν τον εκανα ακομη activate.
Περιμενω το τελικο build.

Μεχρι τωρα το Open Suse KDE-4 φαινεται να ειναι το πιο ευχαριστο OS.
Λειπουν ομως τα codecs για video και σωστοι graphics drivers.

nikosl
02-02-09, 03:16
Νομίζω ότι πρέπει να χρησιμοποιήσεις δομές forall ή where και με τον intel compiler θα σου το κάνει multithreaded.

papadopoulos02
03-02-09, 23:46
γιατι δεν περνεις τον Q9550? με ελαχιστο oveclock φτανει στα 3 ghz

nikosl
04-02-09, 01:59
Overclocking is not a solution για την χρήση μου το θέλει ο hex για πολλούς και διάφορους λόγους που είχαμε αναλύσει και στο παλιότερο thread. Το σημαντικότερο είναι ότι αυξάνονται οι πιθανότητες για αριθμητικά λάθη του επεξεργαστή.

parsifal
04-02-09, 10:51
Με το XP 64 εκανα recompile εναν παλιο (δηλ 14χρονο) fortran code
με το gfortran. Το executable τρεχει μονο σε ενα core (at a time)
και ειναι 2 φορες πιο γρηγορο απο το P4 Prescott 3.2GHz.

Κατεβασα τον compiler της Intel αλλα δεν τον εκανα ακομη activate.
Περιμενω το τελικο build.

Hex, ξεκίνα διαβασματάκι περί OpenMP. Σε λίγο χρόνο και με λίγες προσεκτικές επεμβάσεις στον κώδικα, μπορείς να δεις καλή βελτίωση στα τμήματα που θα εκτελούνται παράλληλα.

Hex
04-02-09, 21:31
Το OpenMP φαινεται να ειναι κατι παρομοιο με τις MPI που
χρησιμοποιουσα πριν. Η αριθμητικη προσεγγιση των εξισωσεων
του προβληματος ειναι παραλληλος αλλα εχει την ειδικοτητα
ο,τι ο τυπος του παραλληλισμου να αλλαζει κατα την διαρκεια της
λυσεως σε καθε σημειο του χρονου.

Τυπικα εχουμε τις τρεις διαστασεις με δεικτες (I,J,K) και μερος του
υπολογισμου ειναι παραλληλος στον δεικτη Ι (υπολογισμος της
πιεσεως στην προκειμενη περιτπτωση) ενω μετατρεπεται σε
παραλληλο στους δεικτες J και K για τον υπολογισμο των
μη-γραμμικων επιταχυνσεων. Αυτο συνηθως ελαττωνει την
αποδοτικοτητα του παραλληλου υπολογισμου. Θα δουμε.

nikosl
04-02-09, 21:37
Δλδ συνήθως χρησιμοποιείς τετραδιάστατους πίνακες?

Hex
05-02-09, 13:24
Σε καθε σημειο του χρονου χρειαζεται να υπαρχουν τουλαχιστον
τρεις πινακες (arrays), συνηθως to διανυσμα της ταχυτητος (u,v,w)
το οποιο ειναι 3D δηλ u(i,j,k), v(i,j,k,) & w(i,j,k). Η πιεση εμφανιζεται
ενδιαμεσα στην επιβολη της διατηρησεως της μαζας (div(u)=0) η οποια
ειναι επισης 3D p(i,j,k). Συνολο 4 3D arrays για ενα σημειο στο χρονο.

O χρονος ειναι καπως ιδιαιτερος (οι εξισωσεις ειναι παραβολικες στο
χρονο και ελλειπτικτες στον χωρο). Για να κανεις ενα βημα στον χρονο
με second order accuracy, χρειαζονται ακομη η ταχυτης απο το προηγουμενο
σημειο χρονου στο οποιο βρισκεσαι. Συνολο 7 3D πινακες in core.

Για αποθηκευση τα πεδια στο χρονο, χρησιμοποιεις τον HD.

nikosl
05-02-09, 13:41
Αρα ουσιαστικά δύσκολα θα αξιοποιήσεις τους 4 πυρήνες, (άντε σε καμια λούπα ή σε καμια ανάθεση τιμών σε πίνακα).....

parsifal
05-02-09, 14:07
Από μία τόσο αδρή περιγραφή, δεν καθίσταται εντελώς σαφές αν και ποιες πράξεις υπολογισμού είναι παραλληλοποιήσιμες. Εσύ έχεις τον κώδικα μπροστά σου και μόνο εσύ μπορείς να καταλάβεις αν βελτιωτικές επεμβάσεις στον κώδικα είναι εφικτές.

Hex
12-02-09, 03:09
@parsifal

Οι περιγραφες τετοιου ειδους εδω ειναι κατ'αναγκη πολυ
περιληπτικες. Αν εισαι γνωστης του OpenMP τοτε πολυ
πιθανον να εχω πιο συγκεκριμενες ερωτησεις αν εχεις τον χρονο
και διαθεση.


Άλλα:

Δοκιμασα τον Q9650 σε full load – δηλ ετρεχα 4 φορες το ιδιο προγραμμα
συγχρονως. Η θερμοκρασια των τεσσαρων cores με τον stock cooler
ηταν απο 45 μεχρι 60 βαθμους C. Αγορασα ενα cooler Scythe και η
θερμοκρασια σε full load ειναι τωρα 36-48 C. (Με το speedfan σε Win XP 64)

Στο OpenSuse 11.1 64, εκανα install τους fortran compilers απο την Intel (ifort)
και τον GNU-gcc βασισμενο gfortran.

Timings:

Ο 3D simulation κωδικος ειναι γραμμενος σε fortran-77 με μερικα
f95 constructs. Ο αριθμος των collocation points ειναι 4.7x10**6
(Gauss-Lobatto-Legendre & Fourier).

Ο ifort κανει σχετικα πολυ χρονο σε compilation.
Και του ifort της Intel και του gfortran του GNU τα executable
τρεχουν μονο σε ενα core.

Για 50 time steps:

Με τον Q9650 το executable του ifort με -Ο3 ειναι το ιδιο γρηγορο με αυτο του gnu-gfortran με -Ο3.

Επισης, το executable του ifort -Q9650 (single core) ειναι 2.7 φορες πιο
γρηγορο απο το Pentium Prescott @3.2GHz σε Win XP και με gnu-gfortran και -O3.

Με το OpenMP η διαφορα θα διευρυνθει.

nfotis
13-02-09, 12:24
Ιδέα:

Μπορείς να μη μπλέξεις με OpenMP και συναφείς μεθόδους, αν 'τρέχεις' παράλληλα στο ίδιο μηχάνημα 4 διαφορετικά σειριακά προγράμματα (ή το ίδιο πρόγραμμα με διαφορετικές παραμέτρους).

Σκέψου ότι έχεις ουσιαστικά 4 σειριακούς υπολογιστές στο ίδιο κουτί.

Με αυτή την απλοϊκή μέθοδο μπορείς να κάνεις παράλληλα 4 υπολογιστικά πειράματα εκεί που έκανες μόνο ένα (θα σου κοστίσει σε μνήμη βέβαια, αλλά σήμερα οι μνήμες είναι το φτηνότερο κομμάτι...)

Ν.Φ.

Hex
16-02-09, 23:53
@nfotis

Εν γενει ενδιαφερομαι για την ικανοτητα του υπολογιστη να
κανει λιγες simulations με φυσικα χαρακτηριστικα τα οποια
πλησιαζουν laboratory πειραματα – στην προκειμενη περιπτωση
μεγαλυτερο Re (Reynolds number) – και συγχρονως δεν εχουν
δημοσιευθει. Αυτο αναποφευκτα σημαινει υψηλοτερη αναλυση
στον χωρο και χρονο δηλ υπολογιστικο κοστος. Νομιζω στον
προηγουμενο thread εγραψα κατι για την αυξηση του κοστους
σε cpu σαν συναρτηση του Re. Αυτο απαραιτητως πρεπει να
γινει σε // code γιατι ο cpu χρονος που απαιτειται ειναι πολυ
μεγαλος. Εδω εχουμε την κλασσικη περιπτωση οτι το προβλημα
διευρυνεται για να καταναλωσει τους υπαρχοντες πορους.

Εριξα μια ματια σε manuals του openmp και δεν φαινεται φοβερα
δυσκολο. Σιγουρα ειναι πιο ευκολο απο το mpi που χρησιμοποιησα
στο παρελθον οπου επρεπε κανεις να επεμβει πολυ πιο δραστικα
στην διαχειριση της μνημης.

Αυτη την στιγμη μπορω να χρησιμοποιησω 16 cores (μου εστειλαν και
δυο μεγαλους codes απο το εξωτερικο + 3 δικους μου). Λεω να
καθυστερησω την αγορα του δευτερου συστηματος μεχρι να πεσουν
λιγο οι τιμες της DDR3 και ισως εμφανιστουν chips με 6/8/12 cores.
Σιγουρα τωρα εχω storage προβλημα.

Το νεο συστημα ειναι τωρα σε full load 5 ημερες/νυχτες. Θερμοκρασιες
απο 40 μεχρι 50 C. Ειναι και αρκετα αθορυβο. Το OpenSuse ειναι πολυ
καλο για τετοιου ειδους χρηση εκτος απο τους editors. Ο emacs δεν
μου αρεσει και πολυ ο Kwrite ειναι πολυ απλος. Προς το παρον χρησιμoποιω
vi σε console για απλες αλλαγες και τα στελνω στα Windows
με PSPad/Dev-C++/Notepad++ για heavy editing. Τα Windows
εχουν μεγαλη επιλογη σε free editors στα linux υπαρχει ο
anjuta και κατι.

Hex
20-02-09, 12:10
Για τους γνωστες του OpenMP:

Γιατι ο ακολουθος loop δινει segmentation fault



!$OMP PARALLEL DEFAULT(SHARED)
!$OMP+ PRIVATE(W1,W2,W3)

!$OMP DO
Do Iw = 1, N1
If( Iw .ne. 2 ) Then

.....

Do KEL = 2, N3
Do JEL = 1, N2
Do JGLL = 1, M2
c
W1(JGLL,1,JEL,KEL) = W1(JGLL,1,JEL,KEL) + W1(JGLL,M3,JEL,KEL-1)
W2(JGLL,1,JEL,KEL) = W2(JGLL,1,JEL,KEL) + W2(JGLL,M3,JEL,KEL-1)
W3(JGLL,1,JEL,KEL) = W3(JGLL,1,JEL,KEL) + W3(JGLL,M3,JEL,KEL-1)
c
End Do
End Do
End Do


End If
End Do
!$OMP END DO
!$OMP END PARALLEL


?????

parsifal
21-02-09, 03:41
Δεν έχω εμπειρία με Fortran. Βλέπω όμως ότι παραλληλοποιείς το πιο εξωτερικό Do loop (Iw), άρα κάθε νήμα θα εκτελεί το 3πλα εμφωλευμένο Do loop. Δεν έχεις δηλώσει ως PRIVATE τους counters KEL, JEL, JGLL, άρα υποτίθενται SHARED --> Πρόβλημα συνέπειας με τις τιμές τους, καθώς όλα τα νήματα κάνουν με απροσδιόριστη σειρά και σε δικό του χρόνο το καθένα το +1 increment των counters.

Hex
21-02-09, 22:32
Καλη παρατηρηση αλλα αυτο δεν ειναι το προβλημα. Ολα τα loop index
ειναι private. Κανονικα ο code ειναι


!$OMP PARALLEL DEFAULT(SHARED)
!$OMP+ PRIVATE(I,Iw,IIw,IID,JEL,KEL,JGLL,KGLL,NBLOCK,LBLK,DYH,DZH,RYZ,
!$OMP+ Wv,DPDX,DPDY,DPDZ,PMN,PMM,W1,W2,W3, T1, T2, T3 )
KEL = omp_get_max_threads()
write(6,*)' -- MAX THREADS = ', KEL
!$OMP DO
Do Iw = 1, N1

κλπ



Το προβλημα παραμενει.

Αυξησα και το stack, παλι τα ιδια.


Περιεργο. Ηδη εχω κανει // μια subroutine χωρις προβλημα.

parsifal
21-02-09, 22:59
Μερικές ιδέες:

1. Είσαι σίγουρος ότι δε γίνεται προσπάθεια εγγραφής σε out-of-bounds θέση των πινάκων; Είναι από τις πιο συνήθεις αιτίες segmentation fault. Οι N2, Ν3, M2, Μ3 τί τιμές έχουν; Οι W1, W2, W3 τί διαστάσεις έχουν;

2. Μήπως κάποιες μεταβλητές που δηλώνεις ως PRIVATE έχουν αρχικοποιηθεί πριν από το παράλληλο τμήμα και χρειάζεσαι την τιμή τους εντός του παράλληλου τμήματος; Αν ναι, αυτές θα πρέπει να δηλωθούν ως FIRSTPRIVATE

3. Έχω μία επιφύλαξη σχετικά με τη δήλωση πινάκων ως PRIVATE/FIRSTPRIVATE. Από τον κώδικά σου, φαίνεται να θέλεις κάθε νήμα να έχει ένα ιδιωτικό αντίγραφο των W1, W2, W3. Δε γνωρίζω το πρότυπο του OpenMP τί ορίζει γι' αυτήν την περίπτωση όσον αφορά τη Fortran.

4. To Do loop της Iw τί προσομοιώνει, εξέλιξη στον χρόνο; Αν ναι, νομίζω πως δεν είναι λογικό να παραλληλοποιήσεις αυτό το loop, αλλά το εξωτερικό από τα τρία εμφωλευμένα Do loop. Εξαρτάται βέβαια και από τον υπόλοιπο κώδικα που δεν φαίνεται

Hex
24-02-09, 16:15
Ευχαριστω για τις προτασεις.

Μαλλον το στριμωξα το προβλημα κατα τι. Οταν ελαττωσω την μνημη του προβληματος
το segfault εξαφανιζεται. Μαλλον προκειται για προβλημα μεγεθους του stack για καθε
thread και το συνολο του stack.

Googlαρα το προβλημα και φαινεται οτι το ulimit και το KMP_STACKSIZE μπορει να
μην αρκουν για την σωστη διαρθρωση του stack.

Ψαχνω και ψαχνομαι.

Hex
03-03-09, 04:35
Το συγκεκριμενο θεμα με το multithreading εχει λυθει. Το ιστορικο μπορειτε να
το δειτε στην

http://software.intel.com/en-us/forums/intel-fortran-compiler-for-linux-and-mac-os-x/topic/63889/

Hex
05-03-09, 16:18
Με multithreading περιπου το 90% του code και με average load ~85% των
τεσσαρων cores, το wall clock για ενα βημα (που εχει σταθερο υπολογιστικο
κοστος) ειναι 2.7 φορες χαμηλοτερο απο τον serial code.


Εν σχεσει με το P4 Prescott @3.2GHz, το wall clock στον Q9650 ειναι ~7 φορες
χαμηλοτερο. Καλο αποτελεσμα.

Hex
13-04-09, 14:31
To multithreading ηταν πολυ αποδοτικο.

Τωρα χρειαζομαι 8 η 16 (και 32 ειναι OK) cores.

Μηπως υπαρχει δυνατοτητα να εχει κανεις 2 η 4 Q9650s σε ενα motherboard?

XPHSTOS29
13-04-09, 15:13
Με μια ματια που εριξα οι μητρικες που υποστηριζουν περισσοτερους απο εναν επεξεργαστες ειναι για intel xeon ...
Παρε αυτη http://www.asus.com/product.aspx?P_ID=sqbdCm0nmFxn3sS4 φορτωσε την με μνημες και δισκους και κανε την δουλεια σου :D
Βεβαια θα πρεπει να τρεχουν απο τα μπατζακια σου αφθονα ευρω ...

gtklocker
13-04-09, 15:18
Και γιατί πήρες αυτό το τελειωμένο προϊόν, και να μην πάρεις ένα πολύ ανώτερο και φθηνότερο Phenom II x4 με 8GB RAM;

WAntilles
14-04-09, 00:11
Και γιατί πήρες αυτό το τελειωμένο προϊόν, και να μην πάρεις ένα πολύ ανώτερο και φθηνότερο Phenom II x4 με 8GB RAM;

Για τον ίδιο λόγο που το 80% ψηφίζει τα 2 μεγάλα κόμματα.

pyautg
14-04-09, 03:42
To multithreading ηταν πολυ αποδοτικο.

Τωρα χρειαζομαι 8 η 16 (και 32 ειναι OK) cores.

Μηπως υπαρχει δυνατοτητα να εχει κανεις 2 η 4 Q9650s σε ενα motherboard?

Δυστυχώς όχι. Θα πρέπει να προσανατολιστείς σε Intel Xeon ή AMD Opteron και σε αντίστοιχη μητρική με dual socket. Πολλά τα €€€€€€€.....:whistle:

nikosl
14-04-09, 16:54
Υπάρχουν και quad socket mobos για την δουλειά που θές με ~400$ αλλά είναι μόνο για xeon ή opteron.

Ανάλογα με την χρηματοδότηση που έχεις θα σταθμισεις τον χρόνο και το κόστος και θα επιλέξεις.

Hex
14-04-09, 19:15
Ευχαριστω σε ολους σας.

Εριξα μια ματια στα mobos etc και κατα τα φαινομενα

mobo + 2 Xeons + 12GB DDR3 > USD 1500

το οποιο μετραφραζεται σε 1500 euro δηλ το συστημα ολο θα ειναι ~ 2000 euro.

Εχω ενα παλιο συμμαθητη που ειναι τωρα εγκατεστημενος στην usa και ερχεται
τον επομενο μηνα για λιγο. Λεω να τον ρωτησω να μου φερει τα mobo,Xeons και DDR3
για να εχω πραγματικες dollar τιμες. Ισως ομως να υπαρχει δυσκολια με τις
export licenses κλπ.

nfotis
15-04-09, 15:36
Καλησπέρα,

από το λίγο που έχω διαβάσει, σε shared memory εφαρμογές συχνά οι Opteron έχουν καλύτερες επιδόσεις λόγω ενσωματωμένου memory controller (IMC).

Οι νέοι Xeon (5500 νομίζω) που βασίζονται στον Nehalem μοιράζονται αυτή τη δυνατότητα, αλλά πρέπει να είναι πανάκριβοι.

Σίγουρα έχεις 'ξεζουμίσει' τους 4 πυρήνες μέσα στον επεξεργαστή και δε μπορείς να επιταχύνεις δραστικά με διαφορετικές αλγοριθμικές προσεγγίσεις τους υπολογισμούς;

Αν θέλεις μαζική παραλληλία, θα κοίταγα για quad-socket Opteron, αλλά εκεί πάμε για αρκετά λεφτά (νομίζω ότι μόνο το motherboard ξεπερνάει τα 1000 δολάρια).
Και μετά μπλέκεις με ανεμιστήρες, επεξεργαστές κτλ.

Σίγουρα θέλεις να προχωρήσεις σε αυτό το στάδιο;

Ν.Φ.

Hex
17-04-09, 12:59
Τα Xeon ειναι εκτος - πολυ ακριβα.

Τα opterons ειναι τωρα in αν το κοστος το επιτρεπει.

Αυτη τη στιγμη με mutithreading με τους 4 cores του Q9650 εχω speed up
σε wall clock 3.4. Αυτο ειναι πολυ καλο αποτελεσμα δεδομενου του FSB και
της DDR2. Επομενως υπαρχει πολυ περιθωριο για επιταχυνση με περισσοτερους
cores. Το προβλημα ειναι τωρα το κοστος. Υπαρχει τιποτα συγκεκριμενο?

USD 1000 mobo ειναι μαλλοn πολυ.

To QX9650 ειναι πιο γρηγορα αλλα η καλλιτερη κατευθυνση ειναι φτηνοι
και πολλοι cores δηλ AMD.

WAntilles
17-04-09, 16:47
Αυτη τη στιγμη με mutithreading με τους 4 cores του Q9650 εχω speed up
σε wall clock 3.4. Αυτο ειναι πολυ καλο αποτελεσμα δεδομενου του FSB και
της DDR2. Επομενως υπαρχει πολυ περιθωριο για επιταχυνση με περισσοτερους
cores. Το προβλημα ειναι τωρα το κοστος. Υπαρχει τιποτα συγκεκριμενο?

USD 1000 mobo ειναι μαλλοn πολυ.

To QX9650 ειναι πιο γρηγορα αλλα η καλλιτερη κατευθυνση ειναι φτηνοι
και πολλοι cores δηλ AMD.

Όταν εγώ έλεγα σε αυτό το θρεντ πριν από μήνες ότι με ληγμένο, παλαιολιθικό, ΟΧΙ scalable, FSB-άτο προϊόν, θα πετάξεις τα λεφτά σου, φυσικά είχα δίκιο.

Το κατάλαβες ύστερα από 6+ μήνες.

Hex
18-04-09, 14:11
Όταν εγώ έλεγα σε αυτό το θρεντ πριν από μήνες ότι με ληγμένο, παλαιολιθικό, ΟΧΙ scalable, FSB-άτο προϊόν, θα πετάξεις τα λεφτά σου, φυσικά είχα δίκιο.

Το κατάλαβες ύστερα από 6+ μήνες.

Το Q9650 ειναι κατα ολα τα test που εχω δει ακομη πιο ισχυρο απο τα καλλιτερα
desktop της amd και ας ειναι παλαια τεχνολογια. Καπου ειδα (Anandtech??) ο,τι
ειναι η καλλιτερη επιλογη price/performance.

Αυτη τη στιγμη τρεχω σε ενα multiprocessor στη Γαλλια που εχει 100 Pentium 4.
(δηλ chips με FSB ).

Η amd επανηλθε στην συζητηση γιατι το συστημα για το οποιο γινεται λογος τωρα
ειναι αλλου τυπου - δηλ multiprocessor.

nfotis
21-04-09, 18:11
Καλησπέρα,

από το λίγο που βλέπω, σε AMD Opteron πλατφόρμα είναι δύο τα μεγάλα ονόματα:

Supermicro

http://www.supermicro.com/Aplus/motherboard/Opteron8000/

Tyan

http://www.tyan.com/product_board.aspx

Για ενδεικτικές τιμές, κοίτα προς το τέλος της σελίδας αυτής (τιμές ΗΠΑ, προ φόρου):
http://search.pricewatch.com/motherboards/quad_opteron-0.htm

Εγώ θα συνιστούσα να δεις και τιμές επεξεργαστών, ώστε να βγάλεις τιμές συστήματος.

Εικάζω ότι θα χρειαστείς ένα γαϊδουροκουτί, με τα ακόλουθα:
- τροφοδοτικό κάπου στα 1000 Watts
- μπόλικους ανεμιστήρες στα 120 εκατοστά
- μεγάλη άπλα, ώστε να κυκλοφορεί άνετα ο αέρας μέσα

ΔΕΝ θέλεις SAS ή U320 interfaces (είναι SCSI δίσκοι, που ανεβάζουν δραστικά το κόστος).

Μία ενδεικτική πρόταση:
http://www.supermicro.com/Aplus/motherboard/Opteron8000/MCP55/H8QME-2.cfm

και για σασί-πακέτο με το συγκεκριμένο motherboard:
http://www.supermicro.com/products/chassis/4U/748/SC748TQ-R1000.cfm

Σίγουρα το συγκεκριμένο σασί θα κάνει θόρυβο σαν ηλεκτρική σκούπα με τόσους ανεμιστήρες, οπότε θα πρέπει να το 'στείλετε' σε χωριστό δωμάτιο (και με κλιματισμό το καλοκαίρι)

Τσέκαρε κι αυτό για συμβατότητες με λειτουργικά:
http://www.supermicro.com/Aplus/support/resources/OS/OS_Compatibility2.cfm

Τώρα, πόσο κάνει ένας Opteron 8000;
Χμμμ, για να δούμε...
http://search.pricewatch.com/cpu/opteron_8346-0.htm

Αυτός φαίνεται να είναι ο φτηνότερος τετραπύρηνος Opteron 8xxx (οι άλλοι ξεπερνάνε τα 600 δολάρια το κομμάτι).

Δε νομίζω ότι σε ενδιαφέρει η απόλυτη ταχύτητα, αλλά να επιβεβαιώσεις το scalability, σωστά;
Τότε θέλεις τους φτηνότερους τετραπύρηνους Opteron.
Αν θέλεις απόλυτη ταχύτητα, θα χρειαστείς 3000+ Ευρώ σύνολο όπως τα βλέπω.

Ελπίζω να βοήθησα,
Ν.Φ.

NT1G
21-04-09, 20:47
Οι core i7 με το hyperthreading δεν θα βοηθούσαν έστω και λίγο;:hmm:

@ ADSLgr.com All rights reserved.