Apache Spark - HDFS

**Zus** · 13-12-20, 21:50

Υπάρχει κάποιος γνώστης του αντικειμένου να μου λύσει κάποιες απορίες?

Έχω ήδη εγκαταστήσει σε Ubuntu + VirtualBox εντός του Ubuntu τον Master και τον Worker. "Βλέπω" κανονικά και τους δύο μέσω SSH. Αυτό που παλεύω να κάνω είναι το επόμενο βήμα. Το Distributed File System των δύο.

Να τρέξω δηλαδή από τον Master πραγματάκια και να μοιράσω την δουλειά στον worker. Και προφανώς, ανα πάσα στιγμή να κάνω το ίδιο και στον Worker. Κάποιο boost?

**MitsakosGR** · 13-12-20, 22:16

Το DFS είναι το πρώτο που πρέπει να κάνεις. Στήνεις DFS με HADOOP και μετά τρέχεις από το master του Spark κάποιο job. Νομίζω δεν μπορείς να τρέξεις από το Worker κατι. Μόνο ο Master κάνει κουμάντο!

**Zus** · 13-12-20, 22:53

Αρχικό μήνυμα από MitsakosGR

Το DFS είναι το πρώτο που πρέπει να κάνεις. Στήνεις DFS με HADOOP και μετά τρέχεις από το master του Spark κάποιο job. Νομίζω δεν μπορείς να τρέξεις από το Worker κατι. Μόνο ο Master κάνει κουμάντο!

Είχα την εντύπωση ότι θα μπορώ να κάνω queries και από τον Worker.

Έχεις κάποιον οδηγό εύκαιρο, που το έχεις δοκιμάσει? Βρήκα τώρα κάποιες οδηγίες αλλά καλό να υπάρχει και backup. Αν και φοβάμαι ότι θα γίνουν όλα μαντάρα, διότι ήδη έχω εγκατεστημένα αρκετά πράγματα. Μάλλον πάμε για Purge και από το 0 ξανά.

**MitsakosGR** · 14-12-20, 00:53

Οδηγώ δεν έχω γιατί είχα ασχοληθεί πριν αρκετά χρόνια (4-5). Αλλά ίσως βρω ένα script που είχα φτιάξει για να κάνω μαζικά εγκατάσταση καμία 50ρια συστήματα. Θα ψάξω και σε ενημερώνω. Γενικά θυμάμαι τι πρέπει να κάνεις, οπότε αν κολλήσεις κάπου πες!

**Zus** · 14-12-20, 10:58

Υπάρχει κάποιος λόγος που όλοι προτείνουν Java-8-Oracle μόνο? Διάβασα ότι σε νεότερες ή διαφορετικές εκδόσεις δημιουργεί προβλήματα. Θυμάσαι να ισχύει κάτι τέτοιο?

Λογικά θα χρειστώ βοήθεια αλλά το παλεύω ακόμα. Μία μου βγάζει προβλήματα το SSH μία τα ένα σωρό PATH που πρέπει να ορίσω χειροκίνητα και μετά από πόσες προσπάθειες το σύστημά μου δεν αναγνωρίζει καν την hdfs εντολή.

**MitsakosGR** · 14-12-20, 11:19

Εγώ είχα φτιάξει αυτό το script για να στήσω το cluster. (ναι, Arch είχα, τέτοιος είμαι). Mόνο ο master είχε πρόσβαση στο internet, εξού και το gateway.

Δεν ξέρω γιατί συγκεκριμένα Oracle Java 8, αλλά εγώ με openjdk-8 το έτρεχα. Λογικά και εγώ κάπου το διάβασα και είναι για θέματα συμβατότητας.

Το Hadoop δεν είναι υποχρεωτικό να το στήσεις. Μπορείς να "παίξεις" με το Local file system, αρκεί όταν λες στους worker να βρουν κάτι, να είναι σε όλα τα μηχανήματα στο ίδιο ακριβώς σημείο.

Σημαντικό είναι το ssh ανάμεσα σε master και worker (παλιά το έλεγαν slave, το άλλαξαν λόγω political correctness;; ) που πρέπει να είναι passwordless με ssh key.

Spoiler:

Κώδικας:

ip route add default via 192.168.0.2
pacman -Syyu --noconfirm
pacman-db-upgrade
pacman -S jre8-openjdk libxtst unixodbc scala polkit wget parted python2 --noconfirm
ln -s /bin/python2 /bin/python
archlinux-java fix
groupadd hadoop
useradd -m -g hadoop hduser
mkdir /home/hduser/.ssh
cp /root/.ssh/authorized_keys /home/hduser/.ssh/
chown hduser:hadoop /home/hduser/.ssh -R
iptables -P INPUT ACCEPT
iptables -F
iptables-save > /etc/iptables/iptables.rules
echo "192.168.0.2 sparkmaster" >> /etc/hosts

wget http://apache.otenet.gr/dist/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz
tar xf hadoop-2.6.0.tar.gz
mv hadoop-2.6.0 /usr/local/
chown -R hduser:hadoop /usr/local/hadoop-2.6.0 
ln -s /usr/local/hadoop-2.6.0 /usr/local/hadoop
rm ~/hadoop-2.6.0.tar.gz

wget http://d3kbcqa49mib13.cloudfront.net/spark-1.2.1-bin-hadoop2.4.tgz
tar xf spark-1.2.1-bin-hadoop2.4.tgz
mv spark-1.2.1-bin-hadoop2.4 /usr/local/spark-1.2.1
chown -R hduser:hadoop /usr/local/spark-1.2.1
ln -s /usr/local/spark-1.2.1 /usr/local/spark
rm ~/spark-1.2.1-bin-hadoop2.4.tgz

echo "/dev/vdb1 /hdfs ext4 rw,relatime,data=ordered 0 2" >> /etc/fstab

mkdir /hdfs
chown hduser:hadoop /hdfs
parted -s /dev/vdb mklabel msdos
parted -s /dev/vdb mkpart primary ext4 1M 100%
mkfs.ext4 /dev/vdb1


nano /etc/hostname
nano /etc/hosts

reboot

ssh root@sparknode-X 'chown hduser:hadoop -R /hdfs'

ssh hduser@sparknode-

nano ~/.bashrc
HADOOP_PREFIX=/usr/local/hadoop
PATH=$PATH:${HADOOP_PREFIX}/bin:${HADOOP_PREFIX}/sbin
SPARK_PREFIX=/usr/local/spark
PATH=$PATH:${SPARK_PREFIX}/bin:${SPARK_PREFIX}/sbin

source .bashrc

nano $HADOOP_PREFIX/etc/hadoop/core-site.xml
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/hdfs</value>
  </property>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://sparkmaster:9000</value>
  </property>

nano $HADOOP_PREFIX/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/default

nano $HADOOP_PREFIX/etc/hadoop/hdfs-site.xml
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>


cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh
echo "SPARK_MASTER_IP=sparkmaster" >> /usr/local/spark/conf/spark-env.sh
echo "SPARK_WORKER_MEMORY=1500m" >> /usr/local/spark/conf/spark-env.sh





===MASTER===
nano $SPARK_PREFIX/conf/slaves
nano $HADOOP_PREFIX/etc/hadoop/slaves
hdfs dfsadmin -refreshNodes



======Swap======

parted -s /dev/vdc mklabel msdos
parted -s /dev/vdc mkpart primary linux-swap 1M 100%
mkswap /dev/vdc1 -f
swapon /dev/vdc1
echo "/dev/vdc1 none swap defaults 0 0" >> /etc/fstab
reboot

**Zus** · 15-12-20, 17:55

Καταρχή να σε ευχαριστήσω για τον κόπο σου.

Μετά από μεγάλη μάχη κατάφερα να περάσω το Hadoop στο Ubuntu μου καθώς και σε άλλα δύο Ubuntu στο VirtualBox.

Με start-all.sh φαίνεται να ξεκινάνε όλα σωστά.

Κώδικας:

start-all.sh
WARNING: Attempting to start all Apache Hadoop daemons as hadoopuser in 10 seconds.
WARNING: This is not a recommended production deployment configuration.
WARNING: Use CTRL-C to abort.
Starting namenodes on [hadoop-master]
Starting datanodes
Starting secondary namenodes [hadoop-master]
Starting resourcemanager
Starting nodemanagers

Master

Κώδικας:

nameNode$ jps
20497 SecondaryNameNode
21556 Jps
20228 NameNode
20711 ResourceManager

Worker

Κώδικας:

$ jps
2883 DataNode
3304 jps
3034 NodeManager

Worker

Κώδικας:

$ jps
4181 Jps
4070 NodeManager
3915 DataNode

Κώδικας:

hdfs dfsadmin -report
Configured Capacity: 104088993792 (96.94 GB)
Present Capacity: 81552961536 (75.95 GB)
DFS Remaining: 81552912384 (75.95 GB)
DFS Used: 49152 (48 KB)
DFS Used%: 0.00%
Replicated Blocks:
	Under replicated blocks: 0
	Blocks with corrupt replicas: 0
	Missing blocks: 0
	Missing blocks (with replication factor 1): 0
	Low redundancy blocks with highest priority to recover: 0
	Pending deletion blocks: 0
Erasure Coded Block Groups: 
	Low redundancy block groups: 0
	Block groups with corrupt internal blocks: 0
	Missing block groups: 0
	Low redundancy blocks with highest priority to recover: 0
	Pending deletion blocks: 0

-------------------------------------------------
Live datanodes (2):

Με start-dfs.sh που διαβάζω ότι είναι το σωστό τα DataNodes δεν φαίνονται να ξεκινάνε στους workers. Επίσης, με start-all.sh δεν βλέπω ανταπόκριση στο http://hadoop-master:8088/cluster/nodes

Παρότι δηλαδή στο report που σου δείχνω λέει 2 Nodes alive, το web interface διαφωνεί.

**MitsakosGR** · 15-12-20, 18:08

Κανονικά θέλει μόνο το start-dfs.sh. Το all ξεκινάει και το map-reduce απλά. Έχεις ρυθμίσει το αρχείο με τους workers (slaves);

**Zus** · 15-12-20, 22:38

Αρχικό μήνυμα από MitsakosGR

Κανονικά θέλει μόνο το start-dfs.sh. Το all ξεκινάει και το map-reduce απλά. Έχεις ρυθμίσει το αρχείο με τους workers (slaves);

Έσβησα κάποιους φακέλους μετά από οδηγίες στο stackoverflow και φαίνεται να ξεκόλλησε μετά από

Κώδικας:

-format

Με

Κώδικας:

start-dfs.sh

και

Κώδικας:

jps

βλέπω κανονικά το NameNode στον master και τo DataNode στον κάθε worker.

Να θεωρήσω πως η εικόνα αυτή σημαίνει ότι είμαι έτοιμος για εγκατάσταση Spark πάνω στο Hadoop?

Πατήστε στην εικόνα για να τη δείτε σε μεγέθυνση.

Όνομα: Screenshot from 2020-12-15 21-36-40.png
Εμφανίσεις: 7
Μέγεθος: 74,9 KB
ID: 222182

**MitsakosGR** · 15-12-20, 23:29

Αρχικό μήνυμα από Zus

Έσβησα κάποιους φακέλους μετά από οδηγίες στο stackoverflow και φαίνεται να ξεκόλλησε μετά από

Κώδικας:

-format

Με

Κώδικας:

start-dfs.sh

και

Κώδικας:

jps

βλέπω κανονικά το NameNode στον master και τo DataNode στον κάθε worker.

Να θεωρήσω πως η εικόνα αυτή σημαίνει ότι είμαι έτοιμος για εγκατάσταση Spark πάνω στο Hadoop?

Φαίνεται να δουλεύει, ναι. Δοκίμασε μερικές απλές εντολές του hdfs να δεις αν δουλεύει σωστά. Πχ, δοκίμασε να βάλεις ένα αρχείο και να δεις ότι όντως έγινε replicate και μετά να το ανακτήσεις από άλλο Node.

Λογικά είσαι έτοιμος για Spark. Μία μικρή διόρθωση που συχνά γίνεται παρεξήγηση και πολλοί μπερδεύονται: Δεν στήνεις Spark πάνω στο Hadoop! Στήνεις Hadoop και Spark! Το καθένα είναι ανεξάρτητο πρόγραμμα που κάνει διαφορετικές δουλειές. Το Hadoop είναι φτιαγμένο ως Distributed File System με δυνατότητα Map-Reduce. Το Spark είναι φτιαγμένο για Distributed Processing. Spark μπορείς να χρησιμοποιήσεις και χωρίς Hadoop! Μπορείς να παίξεις με κοινόχρηστα αρχεία ή να μεταφέρεις manually (ή αυτόματα) αρχεία σε συγκεκριμένα path ώστε να τα βρίσκουν τα προγράμματα του Spark. Χρησιμοποιούμε το HDFS λόγω του ότι είναι distributed και φτιαγμένο για μεγάλα αρχεία (που συνήθως είναι αυτό που κάνει και το Spark). Επίσης είναι το "εύκολο" στη χρήση και έχει έτοιμα bindings, ώστε να μην χρειάζεται να έχουμε κοινόχρηστα, μεταφορές κτλ!

**Zus** · 16-12-20, 00:35

Αρχικό μήνυμα από MitsakosGR

Φαίνεται να δουλεύει, ναι. Δοκίμασε μερικές απλές εντολές του hdfs να δεις αν δουλεύει σωστά. Πχ, δοκίμασε να βάλεις ένα αρχείο και να δεις ότι όντως έγινε replicate και μετά να το ανακτήσεις από άλλο Node.

Λογικά είσαι έτοιμος για Spark. Μία μικρή διόρθωση που συχνά γίνεται παρεξήγηση και πολλοί μπερδεύονται: Δεν στήνεις Spark πάνω στο Hadoop! Στήνεις Hadoop και Spark! Το καθένα είναι ανεξάρτητο πρόγραμμα που κάνει διαφορετικές δουλειές. Το Hadoop είναι φτιαγμένο ως Distributed File System με δυνατότητα Map-Reduce. Το Spark είναι φτιαγμένο για Distributed Processing. Spark μπορείς να χρησιμοποιήσεις και χωρίς Hadoop! Μπορείς να παίξεις με κοινόχρηστα αρχεία ή να μεταφέρεις manually (ή αυτόματα) αρχεία σε συγκεκριμένα path ώστε να τα βρίσκουν τα προγράμματα του Spark. Χρησιμοποιούμε το HDFS λόγω του ότι είναι distributed και φτιαγμένο για μεγάλα αρχεία (που συνήθως είναι αυτό που κάνει και το Spark). Επίσης είναι το "εύκολο" στη χρήση και έχει έτοιμα bindings, ώστε να μην χρειάζεται να έχουμε κοινόχρηστα, μεταφορές κτλ!

Δύο μέρες έχω που ασχολούμαι με το θέμα. Αρχικά να σου πω ότι βρήκα το στήσιμό του αρκετά μπελαλίδικο. Δεν καταλαβαίνω γιατί απαιτούν τέτοια διαδικασία.

Άσε που μέσα σε λίγες ώρες χρειάστηκε να σβήσω τα

Κώδικας:

usr/local/hadoop/data/dataNode ή /Namenode

2-3 φορές διότι μετά από κάποια πειράματα σταμάτησε να βλέπει τους Workers το

Κώδικας:

start-dfs.sh

Επειδή όπως σου είπα δύο μέρες είναι που ασχολούμαι, μπορείς να γίνεις λίγο πιο συγκεκριμένος όσον αφορά το παράδειγμα? Μπορείς να μου πεις τα βασικά βήματα να φορτώσω ένα μεγάλο αρχείο csv και να "παίξω" μαζί του?

**MitsakosGR** · 16-12-20, 13:49

Δεν έχω πειράξει ποτέ τους φακέλους dataNode ή Namenode! Πάντα το έστηνα με τις οδηγίες, έκανα format και έπαιζε! Νομίζω ότι είναι αρκετά απλό, αν καταλάβεις τη λογική του και κάνεις συγκεκριμένα βήματα!

Για να βάλεις αρχεία στο hdfs χρησιμοποιείς το

Κώδικας:

hdfs dfs -put /local/file/path /hdfs/file/path

Μετά στο πρόγραμμά σου ανασύρεις το αρχείο με

Κώδικας:

text_file  = sc.textFile("hdfs://hadoop_master:8020/hdfs/file/path")

'sc' είναι το SparkContext αντικείμενο που ξεκίνησες

Κάνεις ότι επεξεργασία μέσα στο spark (πχ το wordcount)

Κώδικας:

counts = text_file.flatMap(lambda line: line.split(" ")) \
             .map(lambda word: (word, 1)) \
             .reduceByKey(lambda a, b: a + b)

και μετά γράφεις τα αποτελέσματα του spark είτε στο file system, είτε στο hdfs

Κώδικας:

counts.saveAsTextFile("hdfs://hadoop_master:8020/hdfs/file/output/path")

Μετά από το master εξάγεις τα αποτελέσματα στο τοπικό σύστημα με

Κώδικας:

hdfs dfs -get /hdfs/source/path /localfs/destination/path

**Zus** · 16-12-20, 15:34

Αρχικό μήνυμα από MitsakosGR

Δεν έχω πειράξει ποτέ τους φακέλους dataNode ή Namenode! Πάντα το έστηνα με τις οδηγίες, έκανα format και έπαιζε! Νομίζω ότι είναι αρκετά απλό, αν καταλάβεις τη λογική του και κάνεις συγκεκριμένα βήματα!

Για να βάλεις αρχεία στο hdfs χρησιμοποιείς το

Κώδικας:

hdfs dfs -put /local/file/path /hdfs/file/path

Μετά στο πρόγραμμά σου ανασύρεις το αρχείο με

Κώδικας:

text_file  = sc.textFile("hdfs://hadoop_master:8020/hdfs/file/path")

'sc' είναι το SparkContext αντικείμενο που ξεκίνησες

Κάνεις ότι επεξεργασία μέσα στο spark (πχ το wordcount)

Κώδικας:

counts = text_file.flatMap(lambda line: line.split(" ")) \
             .map(lambda word: (word, 1)) \
             .reduceByKey(lambda a, b: a + b)

και μετά γράφεις τα αποτελέσματα του spark είτε στο file system, είτε στο hdfs

Κώδικας:

counts.saveAsTextFile("hdfs://hadoop_master:8020/hdfs/file/output/path")

Μετά από το master εξάγεις τα αποτελέσματα στο τοπικό σύστημα με

Κώδικας:

hdfs dfs -get /hdfs/source/path /localfs/destination/path

Ίσως το πρόβλημα να είναι ότι το σκάλιζα συνεχώς γιατί κάτι θα μου διέφευγε κάθε φορά οπότε για αυτό και δεν δούλευαν. Και επειδή προφανώς δεν έχω στήσει το οτιδήποτε ακόμα δεν με πολυαπασχολούσε να κάνω και ένα παραπάνω format τον αποθηκευτικό χώρο ή να διαγράψω αρχεία που θα δημιουργηθούν ξανά με την εκκίνηση.

Το πρόβλημα που αντιμετωπίζω από χθες το βράδυ, γιατί έκατσα και είδα βιντεάκια με hdfs εντολές είναι ότι δεν καταφέρνω με τίποτα να στείλω αρχείο.

Όταν δηλαδή τρέχω

hdfs dfs -put /home/hadoopuser/myNewFile.txt /stam1

βλέπω αυτό

2020-12-16 13:16:14,876 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false

και ύστερα όταν τρέχω

hadoop fs -ls /

βλέπω ότι έχει δημιουργηθεί ο φάκελος stam1

-rw-r--r-- 2 hadoopuser supergroup 18 2020-12-16 13:16 /stam1

Τρέχοντας όμως

hadoop fs -ls /stam1

δεν μου εμφανίζει το αρχείο μέσα. Δημιουργήθηκε δηλαδή ο φάκελος αλλά το αρχείο δεν έφτασε ποτέ.

Διαβάζοντας το σφάλμα που αναφέρει Trusted κλπ μου πάει το μυαλό στο SSH κομμάτι.

Να σου τονίσω εδώ ότι σύμφωνα με τις οδηγίες τρέχω τα πάντα από άλλον χρήστη που έφτιαξα και όχι από τον default.

- - - Updated - - -

Λοιπόν όλα καλά. Για κάποιο περίεργο λόγο ήθελε δημιουργία φακέλου πρώτα με

Κώδικας:

-p

και ύστερα μεταφορά του αρχείου. Έπαιξε κανονικά και το παράδειγμά σου. Thanks

Παρατήρησα ότι στα Nodes εμφανίστηκαν 370kb δεδομένων τα οποία και μοιράστηκαν κατά 185kb στο καθένα.

**MitsakosGR** · 16-12-20, 15:54

Κώδικας:

hdfs dfs -put /home/hadoopuser/myNewFile.txt /stam1

Αυτό δεν φτιάχνει φάκελο! Μεταφέρει το αρχείο myNewFile.txt στο /stam1.
Αν κάνεις

Κώδικας:

hdfs dfs -head /stam1

θα δεις το αρχείο σου.

Αν θέλεις να το μεταφέρεις σε φάκελο, τότε φτιάξει τον φάκελο

Κώδικας:

hdfs dfs -mkdir /stam1

και μετά μετέφερέ το

Κώδικας:

hdfs dfs -put /home/hadoopuser/myNewFile.txt /stam1/myNewFile.txt

και θα το δεις με

Κώδικας:

hdfs dfs -head /stam1/myNewFile.txt

**Zus** · 17-12-20, 18:47

Όλα οκ τώρα, το παίζω στα δάχτυλα

Γνωρίζεις αν υπάρχει κάποιος ιδιαίτερος λόγος να επιλέξω αρχείο δεδομένων csv αντί json ή και με τα δύο θα κάνω ακριβώς την ίδια δουλειά? Κάποιο από τα δύο με περιορίζει ή με βοηθά με κάποιο τρόπο?

Θέμα: Apache Spark - HDFS

Bookmarks

Bookmarks

Δικαιώματα - Επιλογές