La reconnaissance optique de caractères (ROC), ou encore appelé vidéo-codage (traitement postal, chèque bancaire) désigne les procédés informatiques pour la traduction d'images de textes imprimés ou dactylographiés en fichiers de texte.
Il existe plusieurs logiciels sous GNU/Linux spécialement dédiés, et il est aussi possible d'employer les logiciels existants sous Windows via Wine.
Pour le moment, la ROC (ou OCR) n'est pas un des domaines les plus avancés sous GNU/Linux : jusqu'en 2006, les résultats étaient même en général totalement inutilisables. Cependant, les choses ont évolué rapidement en 2007 et 2008 avec tesseract et le projet Ocropus. Voici un petit guide des différentes solutions possibles avec leurs avantages, leurs inconvénients et des liens pour vous en servir.
Voir également :
OCRopus (page détaillée) : ROC avec prise en compte de la mise en page (en développement). Initialement OCRopus utilisait le moteur tesseract, mais ce n'est plus le cas depuis 2009 1)
Site officiel : https://code.google.com/p/ocropus/
Voir la page tesseract-ocr pour plus d'informations sur l'installation et l'utilisation
Projet mort depuis 2011.
cuneiform (en russe, ou en anglais) est un OCR multiplateforme, qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats corrects. De plus, il semble être le seul à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'image. Il supporte les fichiers images en bmp, png, tiff, Il peut exporter en format texte, html, rtf (mais j'ai obtenu de piètres résultats pour ce format), et d'autres.
Le projet est en attente de nouveaux développeurs depuis mai 2011 2). Le projet dispose toujours d'une page Launchpad qui héberge le code et est maintenue.
Voir la documentation en allemand où on trouve un fichier de commande pour xsane du genre de celui de tesseract.
#!/bin/sh printf %s "$NAUTILUS_SCRIPT_SELECTED_FILE_PATHS" | while read -r arg do convert -colorspace GRAY $arg tmp.tiff cuneiform -l fra -f rtf -o $arg.rtf tmp.tiff rm tmp.tiff done
Ocrad est un élément du projet GNU. Son développement semble arrêté (ou très ralenti) depuis 2011.
Il n'existe aucune interface utilisateur pour faire de la relecture d'OCR dans de bonnes conditions.
Xsane (page détaillée) est une application graphique très complète pour scanner, qui utilise gocr ou tesseract ou cuneiform.
Testé sous Hardy, Intrepid, Jaunty, Lucid (avec cunéiform), Oneiric
gocr -f UTF8
xsane2tess -l fra'
cuneiform -l fra'
et en-dessous, sélectionner la résolution qui convient (pour obtenir les meilleurs résultats, les avis divergent entre 300 et 600 ppi ; un test fait sur des textes écrits en polices 10 et 12 Arial, Times New Roman et Courier 10 Pitch donne les meilleurs résultats en 300 ppi).
Ensuite :
cuneiform est le moteur (voir plus haut), paramétré sous xsane qui a donné les meilleurs résultats, reconnaissance optique presque parfaite, avec une détection excellente des colonnes.
Interface graphique permettant notamment de réaliser de la Reconnaissance Optique de Caractères avec les moteurs gocr et tesseract. Son développement dynamique lui permet d'intégrer les outils les plus performants sous GNU/Linux, dont bientôt OCRopus.
gscan2pdf est présent dans les dépôts.
Voir chapitre utilisation de la page détaillée gscan2pdf.
Il est présent dans les dépôts (Ubuntu Precise 12.04 LTS).
Interface graphique simple, permettant de choisir entre plusieurs moteurs : par défaut installe tesseract, fonctionne aussi avec gocr, ocrad et cuneiform*. (* détecté mais n'a pas fonctionné dans mon test sur texte.)
Attention, le paquet tesseract est installé pour la reconnaissance de l'anglais uniquement. Voir les paquet langues supplémentaires ici tesseract-ocr.
Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois).
ocrgui est une interface graphique pour, soit tesseract, soit gocr.
Kooka n'est plus développé pour KDE 4, il est remplacé par Skanlite (présent dans les dépôts).
Testé sous Precise 12.04.
Une interface graphique pour tesseract-ocr sous gnome.
http://sourceforge.net/projects/gimagereader/
Pour avoir la reconnaissance du français : installer tesseract-ocr-fra
Fonctionnalités (recopiées et traduites du site officiel - version 0.9 de mars 2011 - info au 19/08/2012)
A l'utilisation:
- prise en charge des dictionnaires myspell
- lecture des lignes tordues.
- interface graphique ergonomique
- fonctionne sous Ubuntu 12.04
Le site Free OCR permet de faire de la reconnaissance de caractères en ligne. Il est gratuit et utilise tesseract pour la reconnaissance.
Points forts :
Points faibles :
Voir également :
Non libre mais gratuit. Basé sur WOCAR
Racheté par ScanSoft software. Une fiche sans aucun commentaire est néanmoins disponible pour la version 5.Tout retour, ici ou sur WineHQ serait grandement apprécié.
Certaines versions anciennes de FineReader fonctionnent plus ou moins sous Wine.
Non libre, versions d'évaluation 30 jours des logiciels sur le site officiel.
Non libre, version d'évaluation du logiciel sur le site officiel.