Καλημέρα,
επειδή θα χρειαστώ κάποιο πρόγραμμα OCR έπεσε το μάτι μου στα παρακάτω:
ABBY FINEREADER
OMNIPAGE PRO
READIRIS
RECOGNITA PLUS
Έχετε δουλέψει με κάποιο από αυτά τα προγράμματα και αν ναι, ποιο πιστεύετε ότι είναι καλύτερο / αξιόπιστο?
Λόγω των διαφορετικών πηγών (φωτοτυπία, βιβλίο, εφημερίδα), τι ανάλυση πρέπει να έχει ο scanner για καλύτερα αποτελέσματα? Για πείτε κανένα καλό μοντέλο!
Thnx σε όλους
Εμφάνιση 1-12 από 12
Θέμα: Προγράμματα OCR
-
27-05-05, 08:06 Προγράμματα OCR #1
-
27-05-05, 11:34 #2
Έχω αρκετή εμπειρία και όσα σου πω είναι βεβαιωμένα από την πλευρά μου.
Ανάλυση Scanner:
-=Αν το έντυπό σου έχει Μεγάλα γράμματα=-
(εγκυκλοπαίδειες, βιβλία κ.λπ. που κρίνεις ότι είναι μεγαλύτερα από το μέσο όρο)
Τότε, scan στα 200 dpi αρκεί. Στην περίπτωση αυτή να κάνεις scan με μικρότερη φωτεινότητα.
π.χ. στο -15 ή -20.
Η φωτεινότητα της λάμπας όμως παίζει ρόλο.
-=Αν το έντυπό σου έχει Κανονικά Γράμματα, συνηθισμένο μέγεθος, βιβλίου και περιοδικού=-
Τότε, scan στα 300 dpi αρκεί. Κάνεις scan με κανονική φωτεινότητα στο 0 ή -5
-=Αν το έντυπό σου έχει Μικρά Γράμματα (ή φωτοτυπία σε σμίκρυνση κ.λπ.)=-
Τότε, scan στα 400-600 dpi αρκεί.
Κάνεις scan με κανονική φωτεινότητα στο 0 ή -5
ΠΡΟΓΡΑΜΜΑΤΑ OCR:
Σου μιλάω από εμπειρία μακροχρόνια. ΑΝΑΦΕΡΟΜΑΙ ΜΟΝΟ ΣΕ ΕΛΛΗΝΙΚΑ-ΑΓΓΛΙΚΑ.
1. Αν αυτό που ζητάς είναι η σωστότερη δυνατή αναγνώριση του κειμένου
τότε ΔΕΝ υπάρχει άλλο από το Finereader 7.0
Δεν κολλάει ούτε σε πολυτονικό, ούτε σε κακή φωτοτυπία ούτε σε παράξενες γραμματοσειρές.
ΒΑΘΜΟΛΟΓΙΑ FINEREADER ΜΕ ΑΡΙΣΤΑ ΤΟ 100
ΚΕΙΜΕΝΟ = 95
ΑΝΑΓΝΩΡΙΣΗ ΔΥΣΚΟΛΗΣ ΦΟΡΜΑΣ = 60
2.Αν αυτό που ζητάς είναι η σωστότερη δυνατή αναγνώριση της φόρμας της σελίδας ενώ το κείμενό σου είναι ΠΟΛΥ καθαρό και απλό, τότε ΔΕΝ υπάρχει άλλο από το ΟΜΝΙPAGE της SCANSOFT
Αναγνωρίζει μακράν τις πιο δύσκολες φόρμες. Αν όμως το κείμενο είναι "δύσκολο", τότε η επιτυχία είναι μικρή. Δεν συγκρίνεται ούτε κατά διάνοια με το Finereader.
ΒΑΘΜΟΛΟΓΙΑ ΟΜΝΙPAGE ΜΕ ΑΡΙΣΤΑ ΤΟ 100
ΚΕΙΜΕΝΟ = 70
ΑΝΑΓΝΩΡΙΣΗ ΔΥΣΚΟΛΗΣ ΦΟΡΜΑΣ = 85
Από κει και πέρα, το ReaDIRIS 10 είναι μια μέση οδός.
δηλ. Αν έχεις απλή φόρμα και απλό "εύκολο" κείμενο, τότε θα πάρεις πολύ καλά αποτελέσματα.
Αν όμως έχεις δύσκολη φόρμα και δύσκολο κείμενο, τότε θα πάρεις πολύ άσχημα αποτελέσματα.
Τι εννοώ εύκολη φόρμα:
Αναγνώριση στηλών, μεγέθους επικεφαλίδας, bold, italic κ.λπ.
Τι εννοώ δύσκολη φόρμα:
Κάθε είδους έντυπα όπως, αποδείξεις, τιμολόγια, πολύπλοκες διαφημιστικές μπροσούρες, πολύπλοκες σελίδες περιοδικών κ.λπ.
Τι εννοώ εύκολο κείμενο:
Κλασική γραμματοσειρά τύπου Arial, Tahoma χωρίς άκρες, γυρίσματα κ.λπ.
Τι εννοώ δύσκολο κείμενο:
Γραμματοσειρές τύπου Garamond, λεπτές πλάγιες, πολύ μεγάλα γράμματα, πολύ πυκνό κείμενο (ν & τ που δεν ξεχωρίζουν ή τόνοι που σχεδόν ενώνονται με το γράμμα κ.λπ.), ή πολυτονικές γραμματοσειρές που δεν τις έχουν καταχωρισμένες τα προγράμματα στις προεπιλογές τους.
Πάντως αν μιλάμε ότι προτεραιότητά σου είναι η ορθότητα του κειμένου:
ΜΟΝΟ ΤΟ FINEREADER και κανένα άλλο.
-
-
27-05-05, 11:44 #3
Πράγματι Finereader το καλύτερο και με διαφορά για ocr.
Αναρωτιέμαι αν μπορούμε να το "φτιάξουμε" να κάνει ocr σε πολυτονικά κείμενα.
Stamiak έχεις ιδέα πόσα dpi για να μη χρειάζεται ντε Μουάρ σκαναρισμένη φωτογραφία
από εφημερίδα ή περιοδικό;
-
27-05-05, 11:48 #4
Σ'ευχαριστώ πολύ για την άκρως κατατοπιστική απάντηση
Προέχει η ορθότητα του κειμένου γιατί αφορά περισσότερο εργασίες κειμένου (αγγλικά - ελληνικά) και με τις οδηγίες σου για τις ρυθμίσεις του scanner δεν νομίζω να αντιμετωπίσω δυσκολίες.
να'σαι καλά!
-
27-05-05, 11:52 #5
FineReader οπωσδήποτε. Και για φόρμες υπάρχει ειδικό προϊόν από την Abby που κάνει φοβερή δουλειά ακόμα και με ICR
-
27-05-05, 11:54 #6
stamiak, το avatar σου δεν πρέπει να το έχεις επιλέξει τυχαία ε;
(λόγω του ότι το OCR scanning ενός πάπυρου είναι το ultimate OCR scanning challenge)...
-αστειεύομαι-¶ Τουλάχιστον δύο πράγματα είναι άπειρα: Οι αριθμοί Є R και η ΒΛΑΚΕΙΑ.
¶ "Όποια κοινωνία παραχωρεί ελευθερία για ασφάλεια, είναι ανάξια και για τις δύο και θα χάσει και τις δύο" B.F.
¶ LeT Me HeaR you MaKe DeCiSioNS WiTHouT youR TeLe-ViSioN.
-
27-05-05, 12:00 #7
Να πω την αλήθεια, δεν ξέρω αν μπορείς να το αποφύγεις. Για κάθε χρήση εικόνας σε εκτύπωση οικιακή ή εντύπου, πρέπει να έχεις υποχρεωτικά ανάλυση 300 dots ανά ίντσα (dpi).
Οπότε, αν σε αυτή την υποχρεωτική ανάλυση, παρουσιάζεται moire λόγω της εφημερίδας ή του περιοδικού, τότε δεν ξέρω αν μπορεί να γίνει κάτι άλλο από την εκ των υστέρων αφαίρεσή του.
Απλώς έχω ακουστά πως κάποια scanner έχουν μια επιλογή που την επιλέγεις πριν το σκανάρισμα.
-
-
27-05-05, 12:07 #8
Ναι μερικά το έχουν στον driver. Είχα διαβάσει παλιά ότι οι εφημερίδες εκτυπώνονται σε τάδε ανάλυση και πρέπει να τις σκανάρουμε σε πολλαπλάσιο της, αλλά ούτε το νούμερο θυμάμαι, ούτε 2-3 φορές που το ψαξα στο google έβγαλα άκρη.
Έχεις ρυθμίσει το ocr σου να αναγνωρίζει πολυτονικά και να βγάζει πολυτονικό κείμενο;
-
27-05-05, 12:13 #9
Αρχικό μήνυμα από kubiak
-
-
27-05-05, 12:32 #10
Αρχικό μήνυμα από crimson
Όμως δεν επέμεινα πολύ είναι η αλήθεια. Όταν τα προβλήματα δεν είναι μεγάλα, καταφεύγω στον διορθωτή ή στην έυρεση/αντικατάσταση του Word.
Όμως θα το ψάξω πάλι. Κοίτα το και συ αν θες και τα λέμε πάλι επ 'αυτού.
-
-
27-05-05, 12:38 #11
Το Finereader θα σου ζητήσει ούτως ή άλλως 600 dpi ανάλυση για να κάνει αναγνώριση.
Πολυτονικά σκανάρει, αλλά τα βγάζει μονοτονικά. Πιστεύω ότι θα πρέπει αργά ή γρήγορα να φτιάξουν κάτι με τόσα κείμενα που υπάρχουν στα αρχαία.
-
27-05-05, 14:41 #12
Αρχικό μήνυμα από lazar
Στην έκδοση 7 που έχω βγάζει μεν το μήνυμα όταν εκείνο θεωρεί πως χρειάζεται διαφορετική ανάλυση αλλά το παρακάμπτω και του βάζω πάντα "continue".
Έτσι διαβάζει ότι του δίνω, είτε στα 200, 300 ή 600 dpi.
Πάντως για το θέμα των πολυτονικών συμφωνώ. Μάλιστα καλό θα ήταν να μπορείς να επιλέξεις αν το πολυτονικό το θες ξανά ως πολυτονικό ή ακόμα να στο επιστρέψει και ως μονοτονικό αλλά με σωστή αναγνώριση. Καθώς τώρα, τις ψιλές και τις δασείες τις επιστρέφει ως επιπλέον τόνους, τις περισπωμένες τις επιστρέφει είτε ως τόνους είτε ως διαλυτικά, την ψιλή/δασεία με οξεία την επιστρέφει πάλι ως διαλυτικά.
Θέλει όντως λίγο δουλεια σ' αυτό.
-
Παρόμοια Θέματα
-
Optical Character Recognition (OCR)
Από remallis στο φόρουμ Software γενικάΜηνύματα: 5Τελευταίο Μήνυμα: 05-06-08, 22:32 -
OCR για πένα
Από toubn στο φόρουμ Software γενικάΜηνύματα: 0Τελευταίο Μήνυμα: 29-02-08, 20:52 -
Ελληνικό OCR
Από murlock στο φόρουμ WindowsΜηνύματα: 5Τελευταίο Μήνυμα: 07-09-07, 20:02 -
OCR σε πολυτονικό κείμενο?
Από Miltos_01 στο φόρουμ WindowsΜηνύματα: 2Τελευταίο Μήνυμα: 11-01-07, 09:01 -
OCR & capture - προβλήματα
Από BeholderX στο φόρουμ Audio, Video και ΦωτογραφίαΜηνύματα: 1Τελευταίο Μήνυμα: 27-04-04, 09:59
Bookmarks