PDA

Επιστροφή στο Forum : ελληνική λίστα λέξεων που θα βρω?!?!?!



weakwire
05-06-06, 05:05
Παιδιά ψάχνω να βρω μια λίστα με ελληνικές λέξεις.έφτιαξα ένα μεταφραστή απο greeklish σε ελληνικά και το ανάποδο.
Το πρόβλημα είναι ενώ απο ελληνικά σε greeklish τα πράγματα είναι απλα... μια απλή αντιστοιχηση χαρακτήρων και μια μικρή επεξεργασία φθόγκων κτλ.. πχ ψ ->ps . απο greeklish
σε ελληνικά ζορίζουν κάπως τα πράγματα.
ΠΧ δε μπορούν να μπουν τόνοι, ή να ελενχθεί η ορθογραφία (που εγώ δε κατέχω προφανώς).
Αυτό μπορεί να γίνει αν βρεθεί μια λίστα απο ελληνικές λέξεις.
Εύκολα θα μπορούν να μπούν οι τόνοι και θα μπορεί να υπάρξει μια τυπική διορθωση στην ορθογραφία , κυρίως τα ι ,υ,η,ο,ω στα οποία γίνεται μπάχαλο.

Ο κώδικας μέχρι στιγμης δεν είναι και τίποτα σπουδαίο ή κάτι που να μη μπορείς να βρεις αλλού, αλλα αν βρω μια τέτοια λιστα τότε πραγματικά μπορεί να γίνει ένα καλο εργαλείο για πολλούς.
σε C++ είναι το πρόγραμμα και όποιος θέλει το κώδικα ας μου πει για παραπάνω επεξεργασία ή
για προσωπική χρήση.
Αυτά απο εμένα.

Τη λίστα μη ξεχνάμε τη λίστα :whistle:

mrsaccess
05-06-06, 05:25
Από εδώ (http://ispell.source.gr/scripts_generic.html) κατέβασε την «munched λίστα».

Άνοιξέ την με έναν editor, είναι σε iso-8859-7 (κάνει και το cp1253 - windows greek).
Σε μερικές λέξεις έχει μερικά σκουπίδια στο τέλος αλλά λογικά βγαίνουν πολύ εύκολα.
Πχ σε ένα linux box τρέξε στη κονσόλα:

cat el_GR.dic | iconv -f iso-8859-7 -t utf8 | sed -e 's/\/.*//' > el_GR_cleared.dic ώστε να σου φτιάξει από το el_GR.dic το el_GR_cleared.dic, σε utf8 και καθαρό από «σκουπίδια».

Αν θες βοήθεια πες, μην ξεχάσεις στο τέλος να αναφέρεις από που πήρες το λεξικό. ;)

weakwire
05-06-06, 05:34
ναι αφού έγραψα το post τη βρήκα τη λίστα .Βέβαια επίσης είδα ότι το Aspell κάνει οτι θέλω να κάνω εγω , 1000 φορες καλύτερα και πολύ περισσοτερα.Πλεον δεν είναι για να το χρησιμοποιήσουν άλλοι αλλά απλά για προσοπική ενασχόλιση.
Ευχαριστώ για το tip καθαρισμού.

Michelle
08-06-06, 03:50
Πάρε το λεξικό του Openoffice...
Θα το βρεις στο φάκελο του ως .dic αρχείο. Αν το ανοίξεις με notepad θα δεις οτι είναι αυτό ακριβώς που θέλεις.
Τώρα για τα δικαιώματα δεν ξέρω τι γίνεται, ψάξτο ;)

weakwire
08-06-06, 04:02
αυτό που αναφέρει ο mr access είναι και η λίστα του openoffice.Παράτησα το project καθώς υπάρχει παρόμοιο εργαλείο...
πάντως ευχαριστώ για την απάντηση

lazar
10-06-06, 11:37
σε ελληνικά ζορίζουν κάπως τα πράγματα.
ΠΧ δε μπορούν να μπουν τόνοι, ή να ελενχθεί η ορθογραφία (που εγώ δε κατέχω προφανώς).
Αυτό μπορεί να γίνει αν βρεθεί μια λίστα απο ελληνικές λέξεις.
Εύκολα θα μπορούν να μπούν οι τόνοι και θα μπορεί να υπάρξει μια τυπική διορθωση στην ορθογραφία , κυρίως τα ι ,υ,η,ο,ω στα οποία γίνεται μπάχαλο.

Είναι τόσο απλό; Δεν χρειάζεται να καταλαβαίνει το πρόγραμμα και γραμματική; Τι κάνεις με τις ομόηχες λέξεις, π.χ. αυτές που είναι ρήμα ή ουσιαστικό; Κι αυτό ισχύει ασχέτως τονισμού (τα greeklish δεν έχουν τόνους)
Παραδ.: η λύση, να λύσει, η άνοιξη, θα ανοίξει κλπ.

yiapap
10-06-06, 11:44
weakwire,
Όπως λέει και ο lazar, η αντιστοίχηση από Greeklish σε Ελληνική είναι "many-to-many"
Στα many (Ελληνικά) που ανάφερε να προσθέσω και τα many greeklish
π.χ.
eythini
ey8ynh
ey8uni
eu8unh
εy8ini
Κ.ο.κ.
:(

weakwire
10-06-06, 18:32
είχα φτιάξει μια λίστα ίδια αλλά άτονη.
ναι θα ήταν ζόρι αλλα στο μυαλό μου είχα ότι αν δε βρίσκει μια ίδια λέξη τότε θα απέληφε ένα προς ένα τα φωνήεντα έτσι ώστε να υπάρχει ένα σύνολο απο ίδιες λέξεις.οι οποίες θα συγκρίνονταν μεταξύ τους (όχι στη λήγουσα) και θα διώρθοναν την αρχική.
πάντως με μια παραλαγή αυτού του τρόπου οι τόνοι είναι αρκετά πιο εύκολη υπόθεση

biomecanoid
24-11-10, 04:57
Γεια,


Το θέμα με ενδιαφέρει και μένα.Πως έκανες το 256mb αρχείο από το JTR ? δεν βρήκα να έχει λίστα στα ελληνικά. Αμα εχεις καταφέρει να κανεις ένα αξιοπρεπές wordlist/dictionary θα ήθελα να σύντομο How-Το. Eχεις βρει άλλο dictionary στα ελληνικά εκτος από αυτό του openoffice


Ευχαριστω.

@ ADSLgr.com All rights reserved.