Σελ. 2 από 2 ΠρώτηΠρώτη 12
Εμφάνιση 16-24 από 24
  1. #16
    Εγγραφή
    13-11-2011
    Περιοχή
    Χολαργός
    Ηλικία
    37
    Μηνύματα
    1.438
    Downloads
    1
    Uploads
    0
    Τύπος
    VDSL2
    Ταχύτητα
    24000 / 4500
    ISP
    Wind
    DSLAM
    Wind - ΧΟΛΑΡΓΟΣ
    Path Level
    Interleaved
    Παράθεση Αρχικό μήνυμα από Zus Εμφάνιση μηνυμάτων
    Όλα οκ τώρα, το παίζω στα δάχτυλα
    Και μπράβο σου, όχι μπράβο σου!!!! :P

    Παράθεση Αρχικό μήνυμα από Zus Εμφάνιση μηνυμάτων
    Γνωρίζεις αν υπάρχει κάποιος ιδιαίτερος λόγος να επιλέξω αρχείο δεδομένων csv αντί json ή και με τα δύο θα κάνω ακριβώς την ίδια δουλειά? Κάποιο από τα δύο με περιορίζει ή με βοηθά με κάποιο τρόπο?
    Δεν νομίζω να έχεις κάποιο περιορισμό. Ειδικά από τη στιγμή που τα φορτώνεις σε RDD έχουν αλλάξει δομή, οπότε δεν έχει καμία διαφορά.
    Αυτό που αλλάζει είναι η δομή των αρχείων και των πληροφοριών του. Στο json μπορείς να έχεις και nested data ενώ στο csv όχι. Οπότε πας με αυτό που σε βολεύει καλύτερα, για τα δεδομένα που έχεις να επεξεργαστής!

  2. #17
    Εγγραφή
    02-04-2010
    Μηνύματα
    13.049
    Downloads
    0
    Uploads
    0
    ISP
    Forthnet
    Θέλω να "ενώσω" την εγκατάσταση Spark με το Yarn και να κάνω submit ένα βασικό pyspark project. Απλά για να επιβεβαιώσω ότι δουλεύει.

    Έχω πελαγώσει με τις οδηγίες στο site δεν είναι ακριβής. Καμία συμβουλή?
    Όσο περισσότερο σου κλέβουν τη ζωή, τόσο σε ταΐζουν με έθνος και φυλή..

    Εθνικισμός και μετανάστες

    Μία τάξη, φυλετικά διαχωρισμένη

  3. #18
    Εγγραφή
    13-11-2011
    Περιοχή
    Χολαργός
    Ηλικία
    37
    Μηνύματα
    1.438
    Downloads
    1
    Uploads
    0
    Τύπος
    VDSL2
    Ταχύτητα
    24000 / 4500
    ISP
    Wind
    DSLAM
    Wind - ΧΟΛΑΡΓΟΣ
    Path Level
    Interleaved
    Δυστυχώς δεν έχω δουλέψει ποτέ με το Yarn.

    Αν βάλεις σαν flag "--master yarn" δεν φτάνει;

  4. #19
    Εγγραφή
    02-04-2010
    Μηνύματα
    13.049
    Downloads
    0
    Uploads
    0
    ISP
    Forthnet
    Παράθεση Αρχικό μήνυμα από MitsakosGR Εμφάνιση μηνυμάτων
    Δυστυχώς δεν έχω δουλέψει ποτέ με το Yarn.

    Αν βάλεις σαν flag "--master yarn" δεν φτάνει;
    Όλα καλά. Τρέχω .py χαζοπρογραμματάκια είτε από Yarn είτε από Spark Standalone Cluster.

    Αν και φυσικά δεν καταλαβαίνω διαφορές.
    Όσο περισσότερο σου κλέβουν τη ζωή, τόσο σε ταΐζουν με έθνος και φυλή..

    Εθνικισμός και μετανάστες

    Μία τάξη, φυλετικά διαχωρισμένη

  5. #20
    Εγγραφή
    02-04-2010
    Μηνύματα
    13.049
    Downloads
    0
    Uploads
    0
    ISP
    Forthnet
    Έχω "συνδέσει" το Jupyter Notebook και πατώντας pyspark στο terminal, πλέον με βάζει στο περιβάλλον jupyter. Το έκανα αυτό για να τρέχω από εκεί το PySpark μιας και είναι πιο φιλικό.

    Έχω φορτώσει ένα json αρχείο αρκετών GB με την εντολή (μέσω HDFS)

    Κώδικας:
    df = spark.read.format("json").load("hdfs://hadoop-master:9000/.......json")
    Τρέχω μία απλή εντολή

    Κώδικας:
    df.select("author").distinct().count()
    και μου επιστρέφεται μετά από λίγα δευτερόλεπτα το αποτέλεσμα. Μερικά εκατομμύρια authors ως σύνολο.

    Στην τοπική IP αυτή

    Κώδικας:
    http://192.168.1.67:4040/
    βλέπω τα Spark Jobs

    και σε αυτή

    Κώδικας:
    http://192.168.1.67:8080/
    τους Workers, τον Master, τα Running και Completed Applicaitons.

    Ενώ στα Spark Jobs βλέπω κινητικότητα, με πολλά πράγματα που εμφανίζονται και δεν τα καταλαβαίνω, στο δεύτερο web interface δεν κινείται τίποτα.

    Είναι λογικό? Πως καταλαβαίνω ότι η εντολή distinct().count() χρησιμοποίησε τους Workers? Δηλαδή πως καταλαβαίνω ότι το cluster ου έχω δημιουργήσει λειτουργεί ορθά και πετυχαίνει το max της απόδοσης?
    Όσο περισσότερο σου κλέβουν τη ζωή, τόσο σε ταΐζουν με έθνος και φυλή..

    Εθνικισμός και μετανάστες

    Μία τάξη, φυλετικά διαχωρισμένη

  6. #21
    Εγγραφή
    13-11-2011
    Περιοχή
    Χολαργός
    Ηλικία
    37
    Μηνύματα
    1.438
    Downloads
    1
    Uploads
    0
    Τύπος
    VDSL2
    Ταχύτητα
    24000 / 4500
    ISP
    Wind
    DSLAM
    Wind - ΧΟΛΑΡΓΟΣ
    Path Level
    Interleaved
    Επειδή δεν θυμάμαι τι δείχνουν τα δύο interfaces, μπορείς να βάλεις screenshot;

  7. #22
    Εγγραφή
    02-04-2010
    Μηνύματα
    13.049
    Downloads
    0
    Uploads
    0
    ISP
    Forthnet
    Παράθεση Αρχικό μήνυμα από MitsakosGR Εμφάνιση μηνυμάτων
    Επειδή δεν θυμάμαι τι δείχνουν τα δύο interfaces, μπορείς να βάλεις screenshot;
    Το είχα αφήσει λόγω υποχρεώσεων για κάποιες (πολλές) μέρες.

    Κάθισα και το έκαψα λίγο χθες και προχθές αλλά νομίζω ότι επιτέλους έχω καταλάβει μία και καλή την όλη λογική. Βασικά διαβάζοντας και τα παλιά σου μηνύματα τώρα το έπιασα 100%.

    Αυτές είναι οι δύο εικόνες που ζήτησες.

    Πατήστε στην εικόνα για να τη δείτε σε μεγέθυνση. 

Όνομα:  Screenshot from 2021-02-26 23-23-24.png 
Εμφανίσεις:  6 
Μέγεθος:  29,4 KB 
ID: 225033
    Πατήστε στην εικόνα για να τη δείτε σε μεγέθυνση. 

Όνομα:  Screenshot from 2021-02-26 23-23-10.png 
Εμφανίσεις:  5 
Μέγεθος:  132,3 KB 
ID: 225034

    Η πρώτη εικόνα έχει κινητικότητα όταν απλά δουλεύω εντολές στο Pyspark και η δεύτερη εικόνα μόνο όταν εκτελώ τον ίδιο κώδικα με spark-submit στο terminal.

    Η απορία μου έχει να κάνει με το πως γνωρίζω ότι η συγκεκριμένη εντολή στο Pyspark(Jupyter ή Terminal)

    Κώδικας:
    df.select("author").distinct().count()
    αποδίδει στο μέγιστο. Δηλαδή ότι εκμεταλλεύεται στο έπακρο και τον master και τα δύο slaves.

    Λίγο πολύ την ίδια απορία έχω και με το spark-submit του αντίστοιχου κώδικα. Επιστρέφεται το αποτέλεσμα που επιθυμώ, αλλά πως μπορώ να γνωρίζω ότι όντως όλα τρέχουν σωστά στο παρασκήνιο. Ότι δηλαδή έχω χρησιμοποιήσει και τους 3 Workers στο φούλ και ότι ο χρόνος που χρειάστηκε η επεξεργασία του 9gb αρχείου με κάτι εκατομμύρια γραμμές ήταν και η μέγιστη δυνατή.

    Ο σκοπός μου αυτή τη στιγμή είναι να εκτελέσω μία συγκεκριμένη διαδικασία διαβάσματος ενός αρχείου και φιλτραρίσματος κάποιων συγκεκριμένων γραμμών. Θέλω να εκτελέσω την διαδικασία αυτή και μέσω Spark+HDFS αλλά και μέσω MapReduce+HDFS. Και τέλος να συγκρίνω τους χρόνους για να δείξω ότι το Spark υπερτερεί.

    Το έχω καταφέρει και με τους δύο τρόπους και να σου πω την αλήθεια πιο πολύ με ταλαιπώρησε το Hadoop+Yarn με τις ρυθμίσεις του παρά το Spark. Αλλά και στο MapReduce πραγματικά δεν μπορώ να κατανοήσω αυτό το πράγμα που τρέχω, χρησιμοποιεί όλα τα διαθέσιμα DataNodes του cluster μου.

    Πατήστε στην εικόνα για να τη δείτε σε μεγέθυνση. 

Όνομα:  Screenshot from 2021-02-26 23-33-38.png 
Εμφανίσεις:  5 
Μέγεθος:  82,7 KB 
ID: 225035
    Όσο περισσότερο σου κλέβουν τη ζωή, τόσο σε ταΐζουν με έθνος και φυλή..

    Εθνικισμός και μετανάστες

    Μία τάξη, φυλετικά διαχωρισμένη

  8. #23
    Εγγραφή
    02-04-2010
    Μηνύματα
    13.049
    Downloads
    0
    Uploads
    0
    ISP
    Forthnet
    Παράθεση Αρχικό μήνυμα από MitsakosGR Εμφάνιση μηνυμάτων
    Το DFS είναι το πρώτο που πρέπει να κάνεις. Στήνεις DFS με HADOOP και μετά τρέχεις από το master του Spark κάποιο job. Νομίζω δεν μπορείς να τρέξεις από το Worker κατι. Μόνο ο Master κάνει κουμάντο!
    Πήρα αποθεωτικά σχόλια από τους "από πάνω" στο τέλος του project.

    Θέλω να σ' ευχαριστήσω ακόμη μια φορά για την βοήθεια σου
    Όσο περισσότερο σου κλέβουν τη ζωή, τόσο σε ταΐζουν με έθνος και φυλή..

    Εθνικισμός και μετανάστες

    Μία τάξη, φυλετικά διαχωρισμένη

  9. #24
    Εγγραφή
    13-11-2011
    Περιοχή
    Χολαργός
    Ηλικία
    37
    Μηνύματα
    1.438
    Downloads
    1
    Uploads
    0
    Τύπος
    VDSL2
    Ταχύτητα
    24000 / 4500
    ISP
    Wind
    DSLAM
    Wind - ΧΟΛΑΡΓΟΣ
    Path Level
    Interleaved
    Συγχαρητήρια, όλη η δουλειά δική σου ήταν... Εγώ ελάχιστα σου είπα!

Σελ. 2 από 2 ΠρώτηΠρώτη 12

Bookmarks

Bookmarks

Δικαιώματα - Επιλογές

  • Δεν μπορείτε να δημοσιεύσετε νέα θέματα
  • Δεν μπορείτε να δημοσιεύσετε νέα μηνύματα
  • Δεν μπορείτε να αναρτήσετε συνημμένα
  • Δεν μπορείτε να επεξεργαστείτε τα μηνύματα σας
  •  
  • Τα BB code είναι σε λειτουργία
  • Τα Smilies είναι σε λειτουργία
  • Το [IMG] είναι σε λειτουργία
  • Το [VIDEO] είναι σε λειτουργία
  • Το HTML είναι εκτός λειτουργίας