ΕΛ/ΛΑΚ Λογισμίκo για OCR
Οι πλήστοι χρήστες, γνωρίζουν και κάνουν χρήση του εμπορικού λογισμικού Αbbyy FineReader. Αναζητώντας λίγο το θέμα στο διαδίκτύο εντόπισα το ενδιαφέρων άρθρο που αφορά την ΕΛ/ΛΑΚ εφαρμογή Tesseract-OCR .
H εφαρμογή γίνεται εγκατάσταση με τις οδηγίες στο github. Φαίνεται όμως ότι από μόνη της η εφαρμογή απλά δεχεται μια είκονα της μορφής TIFF ή JPEG και παράγει ένα αρχείο κειμένου ή ένα HCOR html αρχείο ως έξοδο. Στην παρούσα χρονική περίοδο δεν υπάρχει η δυνάτοτητα να δέχεται ένα αρχείο εισόδου PDF και να παράγει ως έξοδο ένα αρχείο OCR σε μορφή PDF.
Αύτο μπορεί να λυθεί με τη χρήση του script PyPDFOCR
Είναι διαθέσιμo μέσω PyPI και άρα μπορεί εύκολα να εγκατασταθεί με την εκτέλεση της εντολής:
pip install pypdfocrΜπορούμε να το χρησιμοποιήσουμε εκτελώντας στην γραμμή εντολών:
python pypdfocr.py filename.pdfΤο εξαγόμενο αποτέλεσμα θα είναι ένα παραγώμενο αρχείο της μορφής filename_ocr.pdf
Σύμφωνα με το άρθρο τα αποτέλεσματα στην Αγγλική είναι αρκετά καλά, όσον αφορά την ελληνική δεν βρηκά κάτι είναι στο πλάνο να το δοκιμάσω.