Η Apple δεν είναι ένας από τους κορυφαίους παίκτες στο παιχνίδι της τεχνητής νοημοσύνης σήμερα, αλλά το νέο μοντέλο τεχνητής νοημοσύνης ανοιχτού κώδικα της εταιρείας για την επεξεργασία εικόνων δείχνει τι είναι ικανή να συνεισφέρει στον χώρο. Το μοντέλο ονομάζεται MLLM-Guided Image Editing (MGIE), το οποίο χρησιμοποιεί πολυτροπικά μοντέλα μεγάλης γλώσσας (MLLM) για να ερμηνεύει εντολές που βασίζονται σε κείμενο κατά τον χειρισμό εικόνων. Με άλλα λόγια, το εργαλείο έχει τη δυνατότητα να επεξεργάζεται φωτογραφίες με βάση το κείμενο που πληκτρολογεί ο χρήστης. Παρόλο που δεν είναι το πρώτο εργαλείο που μπορεί να το κάνει αυτό, "οι ανθρώπινες οδηγίες είναι μερικές φορές πολύ σύντομες για να μπορέσουν οι τρέχουσες μέθοδοι να τις συλλάβουν και να τις ακολουθήσουν", αναφέρεται στο έγγραφο του έργου (PDF).
Η εταιρεία ανέπτυξε το MGIE σε συνεργασία με ερευνητές από το Πανεπιστήμιο της Καλιφόρνιας στη Σάντα Μπάρμπαρα. Οι ΜΓΙΕ έχουν τη δυνατότητα να μετατρέπουν απλές ή διφορούμενες προτροπές κειμένου σε πιο λεπτομερείς και σαφείς οδηγίες που μπορεί να ακολουθήσει ο ίδιος ο επεξεργαστής φωτογραφιών. Για παράδειγμα, αν ένας χρήστης θέλει να επεξεργαστεί μια φωτογραφία μιας πίτσας πεπερόνι για να την "κάνει πιο υγιεινή", τα MLLMs μπορούν να το ερμηνεύσουν ως "προσθέστε γαρνιτούρες με λαχανικά" και να επεξεργαστούν τη φωτογραφία ως τέτοια.
Εκτός από την τροποποίηση που κάνει σημαντικές αλλαγές στις εικόνες, το ΜΓΙΕ μπορεί επίσης να περικόψει, να αλλάξει το μέγεθος και να περιστρέψει τις φωτογραφίες, καθώς και να βελτιώσει τη φωτεινότητα, την αντίθεση και την ισορροπία των χρωμάτων της, όλα αυτά μέσω προτροπών κειμένου. Μπορεί επίσης να επεξεργαστεί συγκεκριμένες περιοχές μιας φωτογραφίας και μπορεί, για παράδειγμα, να τροποποιήσει τα μαλλιά, τα μάτια και τα ρούχα ενός ατόμου σε αυτήν ή να αφαιρέσει στοιχεία στο φόντο.
Όπως σημειώνει το VentureBeat, η Apple κυκλοφόρησε το μοντέλο μέσω του GitHub, αλλά οι ενδιαφερόμενοι μπορούν επίσης να δοκιμάσουν ένα demo.
Πηγή : Engadget
Εμφάνιση 1-2 από 2
-
08-02-24, 11:49 Η Apple κυκλοφορεί ένα μοντέλο τεχνητής νοημοσύνης που μπορεί να επεξεργάζεται εικόνες με βάση εντολές κειμένου #1
- Εγγραφή
- 22-09-2003
- Μηνύματα
- 82.113
- Downloads
- 218
- Uploads
- 48
- Άρθρα
- 6
- Τύπος
- VDSL2
- Ταχύτητα
- 204800/20480
- ISP
- Wind
- Router
- Technicolor DGA4130
- SNR / Attn
- 6(dB) / 2.8(dB)
- Path Level
- Interleaved
-
08-02-24, 12:32 Απάντηση: Η Apple κυκλοφορεί ένα μοντέλο τεχνητής νοημοσύνης που μπορεί να επεξεργάζεται εικόνες με βάση εντολές κειμένο #2
- Εγγραφή
- 20-06-2007
- Περιοχή
- Chicago, Illinois
- Ηλικία
- 33
- Μηνύματα
- 30.738
- Downloads
- 96
- Uploads
- 25
- Άρθρα
- 14
- Τύπος
- FTTH
- Ταχύτητα
- 1 Gbps
- ISP
- Nova
Το μοντέλο FYI είναι εδώ public: https://huggingface.co/spaces/tsujuifu/ml-mgie
Dies, died, will die.
Lived, lives, will live.
Bookmarks