Reconnaissance Optique de Caractères : quelle différence entre l'OCR et l'ICR ?

La recon­nais­sance optique de carac­tères (ou OCR) consiste à ana­ly­ser un docu­ment dis­po­nible sous forme d’i­mage, par exemple un docu­ment numé­ri­sé au moyen d’un scan­ner ou une pho­to, et à le trans­for­mer en une ver­sion texte direc­te­ment ana­ly­sable par un module de trai­te­ment auto­ma­tique des langues. Cette opé­ra­tion uti­lise géné­ra­le­ment des tech­no­lo­gies de recon­nais­sance de formes à base de réseaux de neurones. 

Un pre­mier trai­te­ment consiste à iden­ti­fier la ligne de base et à iso­ler les carac­tères. La recon­nais­sance de formes est ensuite appli­quée sur les carac­tères isolés.

OCR ou ICR

L’a­cro­nyme anglais ICR signi­fie Intel­li­gent Cha­rac­ter Recog­ni­tion pour Recon­nais­sance Intel­li­gente de Carac­tères. Au-delà des sub­ti­li­tés tech­no­lo­giques, la prin­ci­pale dif­fé­rence entre l’O­CR et l’I­CR est que l’I­CR intègre la recon­nais­sance de l’é­cri­ture manus­crite alors que l’O­CR se limite aux carac­tères d’imprimerie.

Par Alain Couillault
PhD Chargé de Mission Innovation APIL