Apache Spark - HDFS

**MitsakosGR** · 18-12-20, 10:43

Αρχικό μήνυμα από Zus

Όλα οκ τώρα, το παίζω στα δάχτυλα

Και μπράβο σου, όχι μπράβο σου!!!! :P

Αρχικό μήνυμα από Zus

Γνωρίζεις αν υπάρχει κάποιος ιδιαίτερος λόγος να επιλέξω αρχείο δεδομένων csv αντί json ή και με τα δύο θα κάνω ακριβώς την ίδια δουλειά? Κάποιο από τα δύο με περιορίζει ή με βοηθά με κάποιο τρόπο?

Δεν νομίζω να έχεις κάποιο περιορισμό. Ειδικά από τη στιγμή που τα φορτώνεις σε RDD έχουν αλλάξει δομή, οπότε δεν έχει καμία διαφορά.
Αυτό που αλλάζει είναι η δομή των αρχείων και των πληροφοριών του. Στο json μπορείς να έχεις και nested data ενώ στο csv όχι. Οπότε πας με αυτό που σε βολεύει καλύτερα, για τα δεδομένα που έχεις να επεξεργαστής!

**Zus** · 29-12-20, 21:40

Θέλω να "ενώσω" την εγκατάσταση Spark με το Yarn και να κάνω submit ένα βασικό pyspark project. Απλά για να επιβεβαιώσω ότι δουλεύει.

Έχω πελαγώσει με τις οδηγίες στο site δεν είναι ακριβής. Καμία συμβουλή?

**MitsakosGR** · 29-12-20, 22:51

Δυστυχώς δεν έχω δουλέψει ποτέ με το Yarn.

Αν βάλεις σαν flag "--master yarn" δεν φτάνει;

**Zus** · 30-12-20, 22:47

Αρχικό μήνυμα από MitsakosGR

Δυστυχώς δεν έχω δουλέψει ποτέ με το Yarn.

Αν βάλεις σαν flag "--master yarn" δεν φτάνει;

Όλα καλά. Τρέχω .py χαζοπρογραμματάκια είτε από Yarn είτε από Spark Standalone Cluster.

Αν και φυσικά δεν καταλαβαίνω διαφορές.

**Zus** · 07-02-21, 00:34

Έχω "συνδέσει" το Jupyter Notebook και πατώντας pyspark στο terminal, πλέον με βάζει στο περιβάλλον jupyter. Το έκανα αυτό για να τρέχω από εκεί το PySpark μιας και είναι πιο φιλικό.

Έχω φορτώσει ένα json αρχείο αρκετών GB με την εντολή (μέσω HDFS)

Κώδικας:

df = spark.read.format("json").load("hdfs://hadoop-master:9000/.......json")

Τρέχω μία απλή εντολή

Κώδικας:

df.select("author").distinct().count()

και μου επιστρέφεται μετά από λίγα δευτερόλεπτα το αποτέλεσμα. Μερικά εκατομμύρια authors ως σύνολο.

Στην τοπική IP αυτή

Κώδικας:

http://192.168.1.67:4040/

βλέπω τα Spark Jobs

και σε αυτή

Κώδικας:

http://192.168.1.67:8080/

τους Workers, τον Master, τα Running και Completed Applicaitons.

Ενώ στα Spark Jobs βλέπω κινητικότητα, με πολλά πράγματα που εμφανίζονται και δεν τα καταλαβαίνω, στο δεύτερο web interface δεν κινείται τίποτα.

Είναι λογικό? Πως καταλαβαίνω ότι η εντολή distinct().count() χρησιμοποίησε τους Workers? Δηλαδή πως καταλαβαίνω ότι το cluster ου έχω δημιουργήσει λειτουργεί ορθά και πετυχαίνει το max της απόδοσης?

**MitsakosGR** · 08-02-21, 08:57

Επειδή δεν θυμάμαι τι δείχνουν τα δύο interfaces, μπορείς να βάλεις screenshot;

**Zus** · 27-02-21, 00:34

Αρχικό μήνυμα από MitsakosGR

Επειδή δεν θυμάμαι τι δείχνουν τα δύο interfaces, μπορείς να βάλεις screenshot;

Το είχα αφήσει λόγω υποχρεώσεων για κάποιες (πολλές) μέρες.

Κάθισα και το έκαψα λίγο χθες και προχθές αλλά νομίζω ότι επιτέλους έχω καταλάβει μία και καλή την όλη λογική. Βασικά διαβάζοντας και τα παλιά σου μηνύματα τώρα το έπιασα 100%.

Αυτές είναι οι δύο εικόνες που ζήτησες.

Πατήστε στην εικόνα για να τη δείτε σε μεγέθυνση.

Όνομα: Screenshot from 2021-02-26 23-23-24.png
Εμφανίσεις: 6
Μέγεθος: 29,4 KB
ID: 225033

Πατήστε στην εικόνα για να τη δείτε σε μεγέθυνση.

Όνομα: Screenshot from 2021-02-26 23-23-10.png
Εμφανίσεις: 5
Μέγεθος: 132,3 KB
ID: 225034

Η πρώτη εικόνα έχει κινητικότητα όταν απλά δουλεύω εντολές στο Pyspark και η δεύτερη εικόνα μόνο όταν εκτελώ τον ίδιο κώδικα με spark-submit στο terminal.

Η απορία μου έχει να κάνει με το πως γνωρίζω ότι η συγκεκριμένη εντολή στο Pyspark(Jupyter ή Terminal)

Κώδικας:

df.select("author").distinct().count()

αποδίδει στο μέγιστο. Δηλαδή ότι εκμεταλλεύεται στο έπακρο και τον master και τα δύο slaves.

Λίγο πολύ την ίδια απορία έχω και με το spark-submit του αντίστοιχου κώδικα. Επιστρέφεται το αποτέλεσμα που επιθυμώ, αλλά πως μπορώ να γνωρίζω ότι όντως όλα τρέχουν σωστά στο παρασκήνιο. Ότι δηλαδή έχω χρησιμοποιήσει και τους 3 Workers στο φούλ και ότι ο χρόνος που χρειάστηκε η επεξεργασία του 9gb αρχείου με κάτι εκατομμύρια γραμμές ήταν και η μέγιστη δυνατή.

Ο σκοπός μου αυτή τη στιγμή είναι να εκτελέσω μία συγκεκριμένη διαδικασία διαβάσματος ενός αρχείου και φιλτραρίσματος κάποιων συγκεκριμένων γραμμών. Θέλω να εκτελέσω την διαδικασία αυτή και μέσω Spark+HDFS αλλά και μέσω MapReduce+HDFS. Και τέλος να συγκρίνω τους χρόνους για να δείξω ότι το Spark υπερτερεί.

Το έχω καταφέρει και με τους δύο τρόπους και να σου πω την αλήθεια πιο πολύ με ταλαιπώρησε το Hadoop+Yarn με τις ρυθμίσεις του παρά το Spark. Αλλά και στο MapReduce πραγματικά δεν μπορώ να κατανοήσω αυτό το πράγμα που τρέχω, χρησιμοποιεί όλα τα διαθέσιμα DataNodes του cluster μου.

Πατήστε στην εικόνα για να τη δείτε σε μεγέθυνση.

Όνομα: Screenshot from 2021-02-26 23-33-38.png
Εμφανίσεις: 5
Μέγεθος: 82,7 KB
ID: 225035

**Zus** · 02-10-21, 11:36

Αρχικό μήνυμα από MitsakosGR

Το DFS είναι το πρώτο που πρέπει να κάνεις. Στήνεις DFS με HADOOP και μετά τρέχεις από το master του Spark κάποιο job. Νομίζω δεν μπορείς να τρέξεις από το Worker κατι. Μόνο ο Master κάνει κουμάντο!

Πήρα αποθεωτικά σχόλια από τους "από πάνω" στο τέλος του project.

Θέλω να σ' ευχαριστήσω ακόμη μια φορά για την βοήθεια σου

**MitsakosGR** · 02-10-21, 23:39

Συγχαρητήρια, όλη η δουλειά δική σου ήταν... Εγώ ελάχιστα σου είπα!

Θέμα: Apache Spark - HDFS

Bookmarks

Bookmarks

Δικαιώματα - Επιλογές