Και μπράβο σου, όχι μπράβο σου!!!! :P
Δεν νομίζω να έχεις κάποιο περιορισμό. Ειδικά από τη στιγμή που τα φορτώνεις σε RDD έχουν αλλάξει δομή, οπότε δεν έχει καμία διαφορά.
Αυτό που αλλάζει είναι η δομή των αρχείων και των πληροφοριών του. Στο json μπορείς να έχεις και nested data ενώ στο csv όχι. Οπότε πας με αυτό που σε βολεύει καλύτερα, για τα δεδομένα που έχεις να επεξεργαστής!
Εμφάνιση 16-24 από 24
Θέμα: Apache Spark - HDFS
-
18-12-20, 10:43 Απάντηση: Re: Apache Spark - HDFS #16
-
29-12-20, 21:40 Re: Apache Spark - HDFS #17
Θέλω να "ενώσω" την εγκατάσταση Spark με το Yarn και να κάνω submit ένα βασικό pyspark project. Απλά για να επιβεβαιώσω ότι δουλεύει.
Έχω πελαγώσει με τις οδηγίες στο site δεν είναι ακριβής. Καμία συμβουλή?Όσο περισσότερο σου κλέβουν τη ζωή, τόσο σε ταΐζουν με έθνος και φυλή..
Εθνικισμός και μετανάστες
Μία τάξη, φυλετικά διαχωρισμένη
-
29-12-20, 22:51 Απάντηση: Apache Spark - HDFS #18
Δυστυχώς δεν έχω δουλέψει ποτέ με το Yarn.
Αν βάλεις σαν flag "--master yarn" δεν φτάνει;
-
30-12-20, 22:47 Re: Απάντηση: Apache Spark - HDFS #19Όσο περισσότερο σου κλέβουν τη ζωή, τόσο σε ταΐζουν με έθνος και φυλή..
Εθνικισμός και μετανάστες
Μία τάξη, φυλετικά διαχωρισμένη
-
07-02-21, 00:34 Re: Apache Spark - HDFS #20
Έχω "συνδέσει" το Jupyter Notebook και πατώντας pyspark στο terminal, πλέον με βάζει στο περιβάλλον jupyter. Το έκανα αυτό για να τρέχω από εκεί το PySpark μιας και είναι πιο φιλικό.
Έχω φορτώσει ένα json αρχείο αρκετών GB με την εντολή (μέσω HDFS)
Κώδικας:df = spark.read.format("json").load("hdfs://hadoop-master:9000/.......json")
Κώδικας:df.select("author").distinct().count()
Στην τοπική IP αυτή
Κώδικας:http://192.168.1.67:4040/
και σε αυτή
Κώδικας:http://192.168.1.67:8080/
Ενώ στα Spark Jobs βλέπω κινητικότητα, με πολλά πράγματα που εμφανίζονται και δεν τα καταλαβαίνω, στο δεύτερο web interface δεν κινείται τίποτα.
Είναι λογικό? Πως καταλαβαίνω ότι η εντολή distinct().count() χρησιμοποίησε τους Workers? Δηλαδή πως καταλαβαίνω ότι το cluster ου έχω δημιουργήσει λειτουργεί ορθά και πετυχαίνει το max της απόδοσης?Όσο περισσότερο σου κλέβουν τη ζωή, τόσο σε ταΐζουν με έθνος και φυλή..
Εθνικισμός και μετανάστες
Μία τάξη, φυλετικά διαχωρισμένη
-
08-02-21, 08:57 Απάντηση: Re: Apache Spark - HDFS #21
Επειδή δεν θυμάμαι τι δείχνουν τα δύο interfaces, μπορείς να βάλεις screenshot;
-
27-02-21, 00:34 Re: Απάντηση: Re: Apache Spark - HDFS #22
Το είχα αφήσει λόγω υποχρεώσεων για κάποιες (πολλές) μέρες.
Κάθισα και το έκαψα λίγο χθες και προχθές αλλά νομίζω ότι επιτέλους έχω καταλάβει μία και καλή την όλη λογική. Βασικά διαβάζοντας και τα παλιά σου μηνύματα τώρα το έπιασα 100%.
Αυτές είναι οι δύο εικόνες που ζήτησες.
Η πρώτη εικόνα έχει κινητικότητα όταν απλά δουλεύω εντολές στο Pyspark και η δεύτερη εικόνα μόνο όταν εκτελώ τον ίδιο κώδικα με spark-submit στο terminal.
Η απορία μου έχει να κάνει με το πως γνωρίζω ότι η συγκεκριμένη εντολή στο Pyspark(Jupyter ή Terminal)
Κώδικας:df.select("author").distinct().count()
Λίγο πολύ την ίδια απορία έχω και με το spark-submit του αντίστοιχου κώδικα. Επιστρέφεται το αποτέλεσμα που επιθυμώ, αλλά πως μπορώ να γνωρίζω ότι όντως όλα τρέχουν σωστά στο παρασκήνιο. Ότι δηλαδή έχω χρησιμοποιήσει και τους 3 Workers στο φούλ και ότι ο χρόνος που χρειάστηκε η επεξεργασία του 9gb αρχείου με κάτι εκατομμύρια γραμμές ήταν και η μέγιστη δυνατή.
Ο σκοπός μου αυτή τη στιγμή είναι να εκτελέσω μία συγκεκριμένη διαδικασία διαβάσματος ενός αρχείου και φιλτραρίσματος κάποιων συγκεκριμένων γραμμών. Θέλω να εκτελέσω την διαδικασία αυτή και μέσω Spark+HDFS αλλά και μέσω MapReduce+HDFS. Και τέλος να συγκρίνω τους χρόνους για να δείξω ότι το Spark υπερτερεί.
Το έχω καταφέρει και με τους δύο τρόπους και να σου πω την αλήθεια πιο πολύ με ταλαιπώρησε το Hadoop+Yarn με τις ρυθμίσεις του παρά το Spark. Αλλά και στο MapReduce πραγματικά δεν μπορώ να κατανοήσω αυτό το πράγμα που τρέχω, χρησιμοποιεί όλα τα διαθέσιμα DataNodes του cluster μου.
Όσο περισσότερο σου κλέβουν τη ζωή, τόσο σε ταΐζουν με έθνος και φυλή..
Εθνικισμός και μετανάστες
Μία τάξη, φυλετικά διαχωρισμένη
-
02-10-21, 11:36 Re: Απάντηση: Apache Spark - HDFS #23Όσο περισσότερο σου κλέβουν τη ζωή, τόσο σε ταΐζουν με έθνος και φυλή..
Εθνικισμός και μετανάστες
Μία τάξη, φυλετικά διαχωρισμένη
-
02-10-21, 23:39 Απάντηση: Apache Spark - HDFS #24
Συγχαρητήρια, όλη η δουλειά δική σου ήταν... Εγώ ελάχιστα σου είπα!
Bookmarks