Υπάρχει κάποιος γνώστης του αντικειμένου να μου λύσει κάποιες απορίες?
Έχω ήδη εγκαταστήσει σε Ubuntu + VirtualBox εντός του Ubuntu τον Master και τον Worker. "Βλέπω" κανονικά και τους δύο μέσω SSH. Αυτό που παλεύω να κάνω είναι το επόμενο βήμα. Το Distributed File System των δύο.
Να τρέξω δηλαδή από τον Master πραγματάκια και να μοιράσω την δουλειά στον worker. Και προφανώς, ανα πάσα στιγμή να κάνω το ίδιο και στον Worker. Κάποιο boost?
Εμφάνιση 1-15 από 24
Θέμα: Apache Spark - HDFS
-
13-12-20, 21:50 Apache Spark - HDFS #1Όσο περισσότερο σου κλέβουν τη ζωή, τόσο σε ταΐζουν με έθνος και φυλή..
Εθνικισμός και μετανάστες
Μία τάξη, φυλετικά διαχωρισμένη
-
13-12-20, 22:16 Απάντηση: Apache Spark - HDFS #2
Το DFS είναι το πρώτο που πρέπει να κάνεις. Στήνεις DFS με HADOOP και μετά τρέχεις από το master του Spark κάποιο job. Νομίζω δεν μπορείς να τρέξεις από το Worker κατι. Μόνο ο Master κάνει κουμάντο!
-
13-12-20, 22:53 Re: Απάντηση: Apache Spark - HDFS #3
Είχα την εντύπωση ότι θα μπορώ να κάνω queries και από τον Worker.
Έχεις κάποιον οδηγό εύκαιρο, που το έχεις δοκιμάσει? Βρήκα τώρα κάποιες οδηγίες αλλά καλό να υπάρχει και backup. Αν και φοβάμαι ότι θα γίνουν όλα μαντάρα, διότι ήδη έχω εγκατεστημένα αρκετά πράγματα. Μάλλον πάμε για Purge και από το 0 ξανά.Όσο περισσότερο σου κλέβουν τη ζωή, τόσο σε ταΐζουν με έθνος και φυλή..
Εθνικισμός και μετανάστες
Μία τάξη, φυλετικά διαχωρισμένη
-
14-12-20, 00:53 Απάντηση: Apache Spark - HDFS #4
Οδηγώ δεν έχω γιατί είχα ασχοληθεί πριν αρκετά χρόνια (4-5). Αλλά ίσως βρω ένα script που είχα φτιάξει για να κάνω μαζικά εγκατάσταση καμία 50ρια συστήματα. Θα ψάξω και σε ενημερώνω. Γενικά θυμάμαι τι πρέπει να κάνεις, οπότε αν κολλήσεις κάπου πες!
-
14-12-20, 10:58 Re: Apache Spark - HDFS #5
Υπάρχει κάποιος λόγος που όλοι προτείνουν Java-8-Oracle μόνο? Διάβασα ότι σε νεότερες ή διαφορετικές εκδόσεις δημιουργεί προβλήματα. Θυμάσαι να ισχύει κάτι τέτοιο?
Λογικά θα χρειστώ βοήθεια αλλά το παλεύω ακόμα. Μία μου βγάζει προβλήματα το SSH μία τα ένα σωρό PATH που πρέπει να ορίσω χειροκίνητα και μετά από πόσες προσπάθειες το σύστημά μου δεν αναγνωρίζει καν την hdfs εντολή.Όσο περισσότερο σου κλέβουν τη ζωή, τόσο σε ταΐζουν με έθνος και φυλή..
Εθνικισμός και μετανάστες
Μία τάξη, φυλετικά διαχωρισμένη
-
14-12-20, 11:19 Απάντηση: Apache Spark - HDFS #6
Εγώ είχα φτιάξει αυτό το script για να στήσω το cluster. (ναι, Arch είχα, τέτοιος είμαι). Mόνο ο master είχε πρόσβαση στο internet, εξού και το gateway.
Δεν ξέρω γιατί συγκεκριμένα Oracle Java 8, αλλά εγώ με openjdk-8 το έτρεχα. Λογικά και εγώ κάπου το διάβασα και είναι για θέματα συμβατότητας.
Το Hadoop δεν είναι υποχρεωτικό να το στήσεις. Μπορείς να "παίξεις" με το Local file system, αρκεί όταν λες στους worker να βρουν κάτι, να είναι σε όλα τα μηχανήματα στο ίδιο ακριβώς σημείο.
Σημαντικό είναι το ssh ανάμεσα σε master και worker (παλιά το έλεγαν slave, το άλλαξαν λόγω political correctness;; ) που πρέπει να είναι passwordless με ssh key.
Spoiler:
-
15-12-20, 17:55 Re: Apache Spark - HDFS #7
Καταρχή να σε ευχαριστήσω για τον κόπο σου.
Μετά από μεγάλη μάχη κατάφερα να περάσω το Hadoop στο Ubuntu μου καθώς και σε άλλα δύο Ubuntu στο VirtualBox.
Με start-all.sh φαίνεται να ξεκινάνε όλα σωστά.
Κώδικας:start-all.sh WARNING: Attempting to start all Apache Hadoop daemons as hadoopuser in 10 seconds. WARNING: This is not a recommended production deployment configuration. WARNING: Use CTRL-C to abort. Starting namenodes on [hadoop-master] Starting datanodes Starting secondary namenodes [hadoop-master] Starting resourcemanager Starting nodemanagers
Κώδικας:nameNode$ jps 20497 SecondaryNameNode 21556 Jps 20228 NameNode 20711 ResourceManager
Κώδικας:$ jps 2883 DataNode 3304 jps 3034 NodeManager
Κώδικας:$ jps 4181 Jps 4070 NodeManager 3915 DataNode
Κώδικας:hdfs dfsadmin -report Configured Capacity: 104088993792 (96.94 GB) Present Capacity: 81552961536 (75.95 GB) DFS Remaining: 81552912384 (75.95 GB) DFS Used: 49152 (48 KB) DFS Used%: 0.00% Replicated Blocks: Under replicated blocks: 0 Blocks with corrupt replicas: 0 Missing blocks: 0 Missing blocks (with replication factor 1): 0 Low redundancy blocks with highest priority to recover: 0 Pending deletion blocks: 0 Erasure Coded Block Groups: Low redundancy block groups: 0 Block groups with corrupt internal blocks: 0 Missing block groups: 0 Low redundancy blocks with highest priority to recover: 0 Pending deletion blocks: 0 ------------------------------------------------- Live datanodes (2):
Με start-dfs.sh που διαβάζω ότι είναι το σωστό τα DataNodes δεν φαίνονται να ξεκινάνε στους workers. Επίσης, με start-all.sh δεν βλέπω ανταπόκριση στο http://hadoop-master:8088/cluster/nodes
Παρότι δηλαδή στο report που σου δείχνω λέει 2 Nodes alive, το web interface διαφωνεί.Όσο περισσότερο σου κλέβουν τη ζωή, τόσο σε ταΐζουν με έθνος και φυλή..
Εθνικισμός και μετανάστες
Μία τάξη, φυλετικά διαχωρισμένη
-
15-12-20, 18:08 Απάντηση: Apache Spark - HDFS #8
Κανονικά θέλει μόνο το start-dfs.sh. Το all ξεκινάει και το map-reduce απλά. Έχεις ρυθμίσει το αρχείο με τους workers (slaves);
-
15-12-20, 22:38 Re: Απάντηση: Apache Spark - HDFS #9
Έσβησα κάποιους φακέλους μετά από οδηγίες στο stackoverflow και φαίνεται να ξεκόλλησε μετά από
Κώδικας:-format
Κώδικας:start-dfs.sh
Κώδικας:jps
Να θεωρήσω πως η εικόνα αυτή σημαίνει ότι είμαι έτοιμος για εγκατάσταση Spark πάνω στο Hadoop?
Όσο περισσότερο σου κλέβουν τη ζωή, τόσο σε ταΐζουν με έθνος και φυλή..
Εθνικισμός και μετανάστες
Μία τάξη, φυλετικά διαχωρισμένη
-
15-12-20, 23:29 Απάντηση: Re: Απάντηση: Apache Spark - HDFS #10
Φαίνεται να δουλεύει, ναι. Δοκίμασε μερικές απλές εντολές του hdfs να δεις αν δουλεύει σωστά. Πχ, δοκίμασε να βάλεις ένα αρχείο και να δεις ότι όντως έγινε replicate και μετά να το ανακτήσεις από άλλο Node.
Λογικά είσαι έτοιμος για Spark. Μία μικρή διόρθωση που συχνά γίνεται παρεξήγηση και πολλοί μπερδεύονται: Δεν στήνεις Spark πάνω στο Hadoop! Στήνεις Hadoop και Spark! Το καθένα είναι ανεξάρτητο πρόγραμμα που κάνει διαφορετικές δουλειές. Το Hadoop είναι φτιαγμένο ως Distributed File System με δυνατότητα Map-Reduce. Το Spark είναι φτιαγμένο για Distributed Processing. Spark μπορείς να χρησιμοποιήσεις και χωρίς Hadoop! Μπορείς να παίξεις με κοινόχρηστα αρχεία ή να μεταφέρεις manually (ή αυτόματα) αρχεία σε συγκεκριμένα path ώστε να τα βρίσκουν τα προγράμματα του Spark. Χρησιμοποιούμε το HDFS λόγω του ότι είναι distributed και φτιαγμένο για μεγάλα αρχεία (που συνήθως είναι αυτό που κάνει και το Spark). Επίσης είναι το "εύκολο" στη χρήση και έχει έτοιμα bindings, ώστε να μην χρειάζεται να έχουμε κοινόχρηστα, μεταφορές κτλ!
-
16-12-20, 00:35 Re: Απάντηση: Re: Απάντηση: Apache Spark - HDFS #11
Δύο μέρες έχω που ασχολούμαι με το θέμα. Αρχικά να σου πω ότι βρήκα το στήσιμό του αρκετά μπελαλίδικο. Δεν καταλαβαίνω γιατί απαιτούν τέτοια διαδικασία.
Άσε που μέσα σε λίγες ώρες χρειάστηκε να σβήσω τα
Κώδικας:usr/local/hadoop/data/dataNode ή /Namenode
Κώδικας:start-dfs.sh
Όσο περισσότερο σου κλέβουν τη ζωή, τόσο σε ταΐζουν με έθνος και φυλή..
Εθνικισμός και μετανάστες
Μία τάξη, φυλετικά διαχωρισμένη
-
16-12-20, 13:49 Απάντηση: Re: Απάντηση: Re: Απάντηση: Apache Spark - HDFS #12
Δεν έχω πειράξει ποτέ τους φακέλους dataNode ή Namenode! Πάντα το έστηνα με τις οδηγίες, έκανα format και έπαιζε! Νομίζω ότι είναι αρκετά απλό, αν καταλάβεις τη λογική του και κάνεις συγκεκριμένα βήματα!
Για να βάλεις αρχεία στο hdfs χρησιμοποιείς το
Κώδικας:hdfs dfs -put /local/file/path /hdfs/file/path
Κώδικας:text_file = sc.textFile("hdfs://hadoop_master:8020/hdfs/file/path")
Κάνεις ότι επεξεργασία μέσα στο spark (πχ το wordcount)
Κώδικας:counts = text_file.flatMap(lambda line: line.split(" ")) \ .map(lambda word: (word, 1)) \ .reduceByKey(lambda a, b: a + b)
Κώδικας:counts.saveAsTextFile("hdfs://hadoop_master:8020/hdfs/file/output/path")
Κώδικας:hdfs dfs -get /hdfs/source/path /localfs/destination/path
-
16-12-20, 15:34 Re: Απάντηση: Re: Απάντηση: Re: Απάντηση: Apache Spark - HDFS #13
Ίσως το πρόβλημα να είναι ότι το σκάλιζα συνεχώς γιατί κάτι θα μου διέφευγε κάθε φορά οπότε για αυτό και δεν δούλευαν. Και επειδή προφανώς δεν έχω στήσει το οτιδήποτε ακόμα δεν με πολυαπασχολούσε να κάνω και ένα παραπάνω format τον αποθηκευτικό χώρο ή να διαγράψω αρχεία που θα δημιουργηθούν ξανά με την εκκίνηση.
Το πρόβλημα που αντιμετωπίζω από χθες το βράδυ, γιατί έκατσα και είδα βιντεάκια με hdfs εντολές είναι ότι δεν καταφέρνω με τίποτα να στείλω αρχείο.
Όταν δηλαδή τρέχω
hdfs dfs -put /home/hadoopuser/myNewFile.txt /stam1
2020-12-16 13:16:14,876 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
hadoop fs -ls /
βλέπω ότι έχει δημιουργηθεί ο φάκελος stam1
-rw-r--r-- 2 hadoopuser supergroup 18 2020-12-16 13:16 /stam1
hadoop fs -ls /stam1
Διαβάζοντας το σφάλμα που αναφέρει Trusted κλπ μου πάει το μυαλό στο SSH κομμάτι.
Να σου τονίσω εδώ ότι σύμφωνα με τις οδηγίες τρέχω τα πάντα από άλλον χρήστη που έφτιαξα και όχι από τον default.
- - - Updated - - -
Λοιπόν όλα καλά. Για κάποιο περίεργο λόγο ήθελε δημιουργία φακέλου πρώτα με
Κώδικας:-p
Παρατήρησα ότι στα Nodes εμφανίστηκαν 370kb δεδομένων τα οποία και μοιράστηκαν κατά 185kb στο καθένα.Όσο περισσότερο σου κλέβουν τη ζωή, τόσο σε ταΐζουν με έθνος και φυλή..
Εθνικισμός και μετανάστες
Μία τάξη, φυλετικά διαχωρισμένη
-
16-12-20, 15:54 Απάντηση: Apache Spark - HDFS #14Κώδικας:
hdfs dfs -put /home/hadoopuser/myNewFile.txt /stam1
Αν κάνεις
Κώδικας:hdfs dfs -head /stam1
Αν θέλεις να το μεταφέρεις σε φάκελο, τότε φτιάξει τον φάκελο
Κώδικας:hdfs dfs -mkdir /stam1
Κώδικας:hdfs dfs -put /home/hadoopuser/myNewFile.txt /stam1/myNewFile.txt
Κώδικας:hdfs dfs -head /stam1/myNewFile.txt
-
17-12-20, 18:47 Re: Apache Spark - HDFS #15
Όλα οκ τώρα, το παίζω στα δάχτυλα
Γνωρίζεις αν υπάρχει κάποιος ιδιαίτερος λόγος να επιλέξω αρχείο δεδομένων csv αντί json ή και με τα δύο θα κάνω ακριβώς την ίδια δουλειά? Κάποιο από τα δύο με περιορίζει ή με βοηθά με κάποιο τρόπο?Όσο περισσότερο σου κλέβουν τη ζωή, τόσο σε ταΐζουν με έθνος και φυλή..
Εθνικισμός και μετανάστες
Μία τάξη, φυλετικά διαχωρισμένη
Bookmarks