ScraPy κάνει scrape σελίδες για να έχεις απλό κείμενο απο HTML πχ. Το θέμα είναι θα σε ενδιέφερε να έχεις το κείμενο απο γνωστές σελιδες; Δεν ξέρω τι δεδομένα μπορείς να πάρεις απο εκεί, παρα μόνο να χεις ένα ευρετήριο κλπ.
Το GPT-3 με τίποτα, το inference του είναι απαγορευτικό, δεν μιλάμε καν για training και είναι μόνο σε αγγλικό corpus. Access στο API δεν εχω δίνανε σε συγκεκριμένα άτομα μόνο.
Υπάρχει το GreekBert (https://huggingface.co/nlpaueb/bert-...eek-uncased-v1) που μπορείς να το χρησιμοποιήσεις, αλλα το θέμα είναι πάντα τι θέλεις να κάνεις με αυτό.
Πχ κάτι που θα με ενδιέφερε ίσως είναι μια σελίδα: Ποιος είπε τι, περι της πανδημίας με παραπομπές για να μπορείς να καταφεύγεις γρήγορα. Άλλου είδους ανάλυση πχ, πότε και που ανακοινώθηκαν πόσα κρούσματα στα διάφορα site (για verification με τις επίσημες πηγές).
Εμφάνιση 16-30 από 37
Θέμα: Ομαδική προσπάθεια για την ανάλυση δεδομένων σχετικά με την επιδημία Covid-19 σε πολλαπλά επίπεδα
-
12-11-20, 15:47 Απάντηση: Ομαδική προσπάθεια για την ανάλυση δεδομένων σχετικά με την επιδημία Covid-19 σε πολλαπλά επίπεδα #16
Τελευταία επεξεργασία από το μέλος Eruyome(MMXGN) : 12-11-20 στις 16:27.
-
12-11-20, 16:24 Απάντηση: Ομαδική προσπάθεια για την ανάλυση δεδομένων σχετικά με την επιδημία Covid-19 σε πολλαπλά επίπεδα #17
Πολύ καλή δουλειά βλέπω να γίνεται, μπράβο παιδιά.
-
12-11-20, 16:42 Απάντηση: Ομαδική προσπάθεια για την ανάλυση δεδομένων σχετικά με την επιδημία Covid-19 σε πολλαπλά επίπεδα #18
Κάτσε ρε συ τίποτα δεν κάναμε ακόμα, στην θεωρία είμαστε
- - - Updated - - -
Ναι δυστυχώς αυτό είναι έτσι... οπότε άκυρο, όσο για το inference όλα τα μοντέλα έχουν αρκετό μπλέξιμο πως θα ταιριάξουν τελικά μέσα στο workflow, ευτυχώς εδώ θα κάνουμε μόνο με data που είναι ενσωματωμένα με την "μηχανή" ETL, modeling και απεικόνισής τους, οπότε αν βρεθεί η λογική σχέση τους (ένα key όλο και όλο) ολα θα γίνουν enchanced με τα αποτελέσματα του ML και θα ομογενοποιηθούν. Στην τελική αυτό θα γίνει προς το τέλος και αν τελικά γίνει.
-
12-11-20, 20:43 Απάντηση: Ομαδική προσπάθεια για την ανάλυση δεδομένων σχετικά με την επιδημία Covid-19 σε πολλαπλά επίπεδα #19
Δεν έχω αντίρρηση στο χρησιμοποιηθεί, πολλά μπορούν να γίνουν απλά επειδή το καθένα θέλει το σχδιασμό του και έχει κάποιες διαδικασίες πρέπει να αποφασιστεί απο πριν τι θέλουμε να γίνει.
Τι είναι ETL;
Μπορείς να δώσεις μια εικόνα των εργαλείων σου; Πχ screenshots ή με δικά σου λόγια τι μπορείς να κάνεις; Σαν παραδείγματα ενός use case που χεις δουλέψει.
Πχ εγώ (shameless self promotion) έχω φτιάξει ένα εργαλείο που θα μπορούσα να το προσαρμόσω στα ελληνικά αν χρειαστεί μιας και είναι rule-based και δεν χρειάζεται extra annotations:
https://github.com/mmxgn/spacy-claus...implementation
Αυτό που κάνει είναι σου αναλύει σύνθετες προτάσεις στα αγγλικά σε πιο απλές προτάσεις με το πολύ ένα ρήμα και επιτρέπει τον σχεδιασμό κανόνων σε prolog για εξαγωγή συμπερασμάτων. Πχ :
A cat, hearing that the birds in a certain aviary were ailing dressed himself up as a physician,
and, taking his cane and a bag of instruments becoming his profession, went to call on them.
['The birds were ailing.']
['A cat dressed himself as a physician.', 'A cat dressed himself.']
['A cat took his cane.', 'A cat took a bag.']
['A cat became his profession.']
['A cat went.']
['A cat called on them.']
Ή πχ σε prolog:
Κώδικας::-use_module('claucy_pl.py'). query(claucy('Albert Einstein, a scientist of the 20th century, died in Princeton in 1955.',Predicate,Arg1,Arg2)).
Κώδικας:claucy('Albert Einstein, a scientist of the 20th century, died in Princeton in 1955.',died,Albert Einstein,in 1955): 1 claucy('Albert Einstein, a scientist of the 20th century, died in Princeton in 1955.',died,Albert Einstein,in Princeton): 1 claucy('Albert Einstein, a scientist of the 20th century, died in Princeton in 1955.',is,Albert Einstein,a scientist): 1
Έχω και άλλα αντίστοιχα projects στο github repo μου. Όποιος θέλει ρίχνει μια ματιά.Τελευταία επεξεργασία από το μέλος Eruyome(MMXGN) : 12-11-20 στις 20:55.
-
13-11-20, 12:46 Απάντηση: Ομαδική προσπάθεια για την ανάλυση δεδομένων σχετικά με την επιδημία Covid-19 σε πολλαπλά επίπεδα #20
Η εξαγωγή δεδομένων και διαμόρφωσή τους πριν χρησιμοποιηθούν
.
Το reporting θα γίνει με Power BI (https://powerbi.microsoft.com/en-us/), ενώ ιδανικά τα datasets σε 2η φάση αν αυτό μπορεί να καταστει δυνατό και ειναι αναγκαίο θα περάσουν και απο κώδικα python για classifications, predictions κτλ.
Στο τελευταίο είμαι σχετικά φρέσκος στο πεδίο ML οπότε δεν θα το παίξω expert. Η έκδοση public domain reports είναι free και τρέχουν σε Azure tenant.
Αν χρειαστεί (με δικά μου έξοδα) ίσως να περάσουν (τα data) και απο ML εργαλεία στο Azure( https://azure.microsoft.com/en-us/se...hine-learning/).
Μια ιδέα πως είναι η πλατφόρμα...
https://app.powerbi.com/view?r=eyJrI...YxNCIsImMiOjZ9Τελευταία επεξεργασία από το μέλος objecto : 13-11-20 στις 12:53.
-
13-11-20, 14:17 Απάντηση: Ομαδική προσπάθεια για την ανάλυση δεδομένων σχετικά με την επιδημία Covid-19 σε πολλαπλά επίπεδα #21
Το Data Wrangling εννοείς; Θα ήταν πολύ χρήσιμο να πεις τι σημαίνουν τα αρχικά επίσης.
Το reporting θα γίνει με Power BI (https://powerbi.microsoft.com/en-us/), ενώ ιδανικά τα datasets σε 2η φάση αν αυτό μπορεί να καταστει δυνατό και ειναι αναγκαίο θα περάσουν και απο κώδικα python για classifications, predictions κτλ.
Στο τελευταίο είμαι σχετικά φρέσκος στο πεδίο ML οπότε δεν θα το παίξω expert. Η έκδοση public domain reports είναι free και τρέχουν σε Azure tenant.
Αν χρειαστεί (με δικά μου έξοδα) ίσως να περάσουν (τα data) και απο ML εργαλεία στο Azure( https://azure.microsoft.com/en-us/se...hine-learning/).
Μια ιδέα πως είναι η πλατφόρμα...
https://app.powerbi.com/view?r=eyJrI...YxNCIsImMiOjZ9
Το λέω γιατί ενώ γνωρίζω θεωρία και είμαι αρκετά δυνατός στο ML κομμάτι, αρκετές φορές βλέπω να ζητάνε PowerBI και θέλω να δω αν αξίζει
-
13-11-20, 14:33 Απάντηση: Ομαδική προσπάθεια για την ανάλυση δεδομένων σχετικά με την επιδημία Covid-19 σε πολλαπλά επίπεδα #22
Το PowerBI είναι για data visualization, δεν είναι για ML. Απλά υποστηρίζει πολλά datasources και μπορεί να βγάλει πολλά και διαφορετικά διαγράμματα και dashboards από όλα μαζί. Το Orange δεν το γνωρίζω, αλλά είναι σαν το tableau, αν το ξέρεις.
Αν ξέρεις ML τότε πολύ εύκολα μπορείς να το μάθεις και να βγάζεις ωραία dashboard (σαν του @objecto).
-
13-11-20, 14:40 Απάντηση: Ομαδική προσπάθεια για την ανάλυση δεδομένων σχετικά με την επιδημία Covid-19 σε πολλαπλά επίπεδα #23
Extract Transform (and) Load
Αν θες να κάνεις δικά σου visual elements ναι. Οχι όμως απαράιτητα. Για τα ETL η γλώσσα λέγεται M query και για την ανάλυση DAX (Data Analysis Expressions).
Επίσης μπορείς να φιλοξενήσεις (αλλά όχι δυναμικά, δλδ δεν μιλάνε τα visual elements του ενος με το αλλο) και Python Libraries όπως (Matplotlib, Seaborn).
Ναι υπάρχει και μέσω UI και υποστηρίζει και dataflows αλλά όλα καταλήγουν στην ουσία να γράφουν M Query αλλά όχι τόσο advanced με graphs όπως στο Orange3 (το οποίο μου άνοιξες την όρεξη να δω).
Όμως μέσω συνεργασίας με Azure μπορείς να έχεις απίθανα εργαλεια όπως το Databricks.
Τέλεια. Εγω αν και στον κώδικα είμαι αρκετά έμπειρος μου λείπει το μαθηματικό κομμάτι , οπότε ναι μεν παίζω με scikit-learn αλλά μου λείπει το υπόβαθρο για hard core καταστάσεις. (Τώρα έχω ξεκινήσει το fast.ai, μήπως βγάλω άκρη σιγά σιγά)
Για να το πω λίγο λαϊκά τα data analytics είναι BI on steroids, οπότε το PowerBI είναι για απεικόνιση πιο business παρά για επιστημονική έρευνα. Όμως θα μπορούσε να αποτελέσει καλό εργαλείο για απεικόνιση ενός επεξεργασμένου dataset με ML.
- - - Updated - - -
Και κάτι παραπάνω αν μου επιτρέπεις λόγω οτι έχει και μια δική του γλώσσα DAX, αλλά σε καμία περίπτωση δεν είναι κατι αντιστοιχο με τον κόσμο του ML/AI
-
13-11-20, 14:57 Απάντηση: Ομαδική προσπάθεια για την ανάλυση δεδομένων σχετικά με την επιδημία Covid-19 σε πολλαπλά επίπεδα #24
Ακουστά το χω και το Tableau.
Το Orange3 μου αρέσει γιατί είναι πολύ απλό, γρήγορο, παραμετροποιήσιμο, και ενσωματωμένο στο python οικοσύστημα (εγκατάσταση με pip install python). Αλλα δεν υποστηρίζει τα real time analytics απο SQL queries πχ των άλλων δύο (αν και υποστηρίζει SQL queries, δεν είναι real time). Επίσης έχει πάρα πολλά bugs.
Γενικά reports προτιμάω να κάνω σε notebooks με pandas και matplotlib/seaborn αλλα είναι αλλο το scope, γνωρίζω.
- - - Updated - - -
Thanks
Τέλεια. Εγω αν και στον κώδικα είμαι αρκετά έμπειρος μου λείπει το μαθηματικό κομμάτι , οπότε ναι μεν παίζω με scikit-learn αλλά μου λείπει το υπόβαθρο για hard core καταστάσεις. (Τώρα έχω ξεκινήσει το fast.ai, μήπως βγάλω άκρη σιγά σιγά)
Για να το πω λίγο λαϊκά τα data analytics είναι BI on steroids, οπότε το PowerBI είναι για απεικόνιση πιο business παρά για επιστημονική έρευνα. Όμως θα μπορούσε να αποτελέσει καλό εργαλείο για απεικόνιση ενός επεξεργασμένου dataset με ML.
- - - Updated - - -
-
13-11-20, 15:47 Απάντηση: Ομαδική προσπάθεια για την ανάλυση δεδομένων σχετικά με την επιδημία Covid-19 σε πολλαπλά επίπεδα #25
Επειδή είδα οτι είσαι και υποψήφιος PhD (ειδικότητα; ) το fast.ai είναι στηριγμένο στο: Deep Learning for Coders with Fastai and PyTorch: AI Applications Without a PhD
- - - Updated - - -
@Eruyome(MMXGN) κοίτα να δεις τώρα που αρχίζει να πλησιάζει και orange
https://powerbi.microsoft.com/fr-fr/...n-power-query/
-
13-11-20, 15:55 Απάντηση: Ομαδική προσπάθεια για την ανάλυση δεδομένων σχετικά με την επιδημία Covid-19 σε πολλαπλά επίπεδα #26
Ναι, δεν είμαι ουσιαστικά, μόνο θεωρητικά ακόμα γιατί δεν έχω πάρει χαρτί (εχω κάνει defend). Computer Science είναι το χαρτί, ειδίκευση σε ML με Audio+NLP για δημιουργικές εφαρμογές (Το PhD ήταν σε Ραδιοφωνικό Δράμα).
Είναι πολύ ενδιαφέροντα αυτά τα εργαλεία, ακόμα και για όσους ασχολούνται με έρευνα, δεν θες πάντα να ξεκινάς να γράφεις τα πάντα απο την αρχή, πολλές φορές θες έτοιμο boilerplate (που είναι αυτό που κάνει το FastAI). Πλέον ML βιβλιοθήκες μπαίνουν στην φαρέτρα προγραμματιστών όπως μπαίνει πχ μια γλώσσα προγραμματισμού.
- - - Updated - - -
@Eruyome(MMXGN) κοίτα να δεις τώρα που αρχίζει να πλησιάζει και orange
https://powerbi.microsoft.com/fr-fr/...n-power-query/
-
17-11-20, 05:54 Απάντηση: Ομαδική προσπάθεια για την ανάλυση δεδομένων σχετικά με την επιδημία Covid-19 σε πολλαπλά επίπεδα #27
Έχετε κοιτάξει τι υπάρχει ήδη σε UI; Για παράδειγμα: https://91-divoc.com/pages/covid-visualization/
-
17-11-20, 11:00 Απάντηση: Ομαδική προσπάθεια για την ανάλυση δεδομένων σχετικά με την επιδημία Covid-19 σε πολλαπλά επίπεδα #28
-
17-11-20, 11:26 Απάντηση: Ομαδική προσπάθεια για την ανάλυση δεδομένων σχετικά με την επιδημία Covid-19 σε πολλαπλά επίπεδα #29
Μιας και συζητατε για data sources, υπάρχει κάπου πληροφόρηση απο τα ληξιαρχεία σχετικά με τον αριθμό των γεννήσεων και θανάτων σε κάτι καλύτερο απο ετήσια βάση?
-
17-11-20, 12:21 Απάντηση: Ομαδική προσπάθεια για την ανάλυση δεδομένων σχετικά με την επιδημία Covid-19 σε πολλαπλά επίπεδα #30
Σε εβδομαδιαία σου κάνει;
https://www.statistics.gr/el/statist...cation/SPO09/-
Το βρήκα από το EU Data Portal, αλλά σε πάει στην ΕΛΣΤΑΤ
https://www.europeandataportal.eu/da...BD%CE%B1%CF%84
Bookmarks