Η Google αποκαλύπτει το RETVec

**deniSun** · 30-11-23, 17:02

Η Google αποκάλυψε έναν νέο πολύγλωσσο διανυσματικό επεξεργαστή κειμένου με την ονομασία RETVec (συντομογραφία των λέξεων Resilient and Efficient Text Vectorizer) για να βοηθήσει στον εντοπισμό δυνητικά επιβλαβούς περιεχομένου, όπως spam και κακόβουλα μηνύματα ηλεκτρονικού ταχυδρομείου στο Gmail.

"Ο RETVec έχει εκπαιδευτεί ώστε να είναι ανθεκτικός απέναντι σε χειρισμούς σε επίπεδο χαρακτήρων, συμπεριλαμβανομένης της εισαγωγής, της διαγραφής, των τυπογραφικών λαθών, των ομόγλυφων, της αντικατάστασης LEET και άλλων", σύμφωνα με την περιγραφή του έργου στο GitHub.

"Το μοντέλο RETVec εκπαιδεύεται πάνω σε έναν νέο κωδικοποιητή χαρακτήρων, ο οποίος μπορεί να κωδικοποιήσει αποτελεσματικά όλους τους χαρακτήρες και τις λέξεις UTF-8".

Ενώ τεράστιες πλατφόρμες όπως το Gmail και το YouTube βασίζονται σε μοντέλα ταξινόμησης κειμένου για τον εντοπισμό επιθέσεων phishing, ακατάλληλων σχολίων και απάτης, είναι γνωστό ότι οι φορείς απειλών καταστρώνουν αντι-στρατηγικές για να παρακάμψουν αυτά τα μέτρα άμυνας.

Έχει παρατηρηθεί ότι καταφεύγουν σε αντίπαλους χειρισμούς κειμένου, οι οποίοι κυμαίνονται από τη χρήση ομόγλωσσων χαρακτήρων έως τη συμπλήρωση λέξεων-κλειδιών και αόρατους χαρακτήρες.

Το RETVec, το οποίο λειτουργεί σε περισσότερες από 100 γλώσσες out-of-the-box, έχει ως στόχο να βοηθήσει στη δημιουργία πιο ανθεκτικών και αποδοτικών ταξινομητών κειμένου από την πλευρά του διακομιστή και της συσκευής, ενώ παράλληλα είναι πιο εύρωστοι και αποδοτικοί.

Η διανυσματοποίηση είναι μια μεθοδολογία στην επεξεργασία φυσικής γλώσσας (NLP) για την αντιστοίχιση λέξεων ή φράσεων από το λεξιλόγιο σε μια αντίστοιχη αριθμητική αναπαράσταση προκειμένου να πραγματοποιηθεί περαιτέρω ανάλυση, όπως ανάλυση συναισθήματος, ταξινόμηση κειμένου και αναγνώριση ονομαστικών οντοτήτων.

Πατήστε στην εικόνα για να τη δείτε σε μεγέθυνση.

Όνομα: Screenshot 2023-11-29 at 8.16.22 AM.jpg
Εμφανίσεις: 23
Μέγεθος: 12,1 KB
ID: 252348

"Λόγω της καινοτόμου αρχιτεκτονικής του, το RETVec λειτουργεί έτοιμο για κάθε γλώσσα και όλους τους χαρακτήρες UTF-8 χωρίς την ανάγκη προεπεξεργασίας κειμένου, καθιστώντας το ιδανικό υποψήφιο για εφαρμογές ταξινόμησης κειμένου σε συσκευές, στο διαδίκτυο και σε μεγάλη κλίμακα", σημείωσαν οι Elie Bursztein και Marina Zhang της Google.

Ο τεχνολογικός γίγαντας δήλωσε ότι η ενσωμάτωση του vectorizer στο Gmail βελτίωσε το ποσοστό ανίχνευσης spam σε σχέση με το βασικό επίπεδο κατά 38% και μείωσε το ψευδώς θετικό ποσοστό κατά 19,4%. Μείωσε επίσης τη χρήση της μονάδας επεξεργασίας αισθητήρων (TPU) του μοντέλου κατά 83%.

"Τα μοντέλα που εκπαιδεύονται με το RETVec παρουσιάζουν ταχύτερη ταχύτητα εξαγωγής συμπερασμάτων λόγω της συμπαγούς αναπαράστασής τους. Η ύπαρξη μικρότερων μοντέλων μειώνει το υπολογιστικό κόστος και μειώνει την καθυστέρηση, κάτι που είναι κρίσιμο για εφαρμογές μεγάλης κλίμακας και μοντέλα σε συσκευές", πρόσθεσαν οι Bursztein και Zhang.