Dyrk se dote d’un outil OCR et d’une « API »

Publié le 9 décembre 2015 par #Ro0t

Salut à tous,

Brute forcer des Captcha, faire de la reconnaissance intelligente, ou simplement extraire le texte d’une image ^^
C’est là, une chose qui n’est pas nouvelle …

Néanmoins, je me suis dit que ça pourrait peut-être vous être utile et vous dépanner la petite communauté que nous formons !

Nous …

Les Dyrknautes ;)

De plus, je me suis mis en tête, de vous concocter pour 2016, une extension de sécurité, qui aurait pour objectif de lire le contenu de vos pages Web.
Qui rechercherait des mots clés dans le HTML et dans les images …
Enfin, qui vous avertirait …
« Vous êtes sur un site qui parle de PAYPAL … mais qui n’est pas PAYPAL ! »

C’est pourquoi je vous présente : Dyrk OCR !

Alors je n’ai pas ré-inventé l’eau tiède …
J’exploite simplement le fonctionnement standard de l’outil Tesseract !

Un outil que tous les linuxiens peuvent installer :

apt-get install tesseract-ocr

Et que vous pouvez utiliser de la manière suivante :

tesseract monImage.png fichierDeSortie

Pour ce qui est de l’API, qui n’en est pas spécialement une, vous pouvez récupérer le texte d’une image en appelant l’url ainsi :

http://ocr.dyrk.org/ocr.php?png={votreUrl}

Je n’ai pas mis volontairement de sécurité …
Après … en cas d’abus je devrais en mettre ;)
A chacun de jouer le jeu ^^