Dyrk se dote d’un outil OCR et d’une « API »

Salut à tous,

 

Brute forcer des Captcha, faire de la reconnaissance intelligente, ou simplement extraire le texte d'une image ^^
C'est là, une chose qui n'est pas nouvelle ...

Néanmoins, je me suis dit que ça pourrait peut-être vous être utile et vous dépanner la petite communauté que nous formons !

Nous ...

Les Dyrknautes ;)

 

 

De plus, je me suis mis en tête, de vous concocter pour 2016, une extension de sécurité, qui aurait pour objectif de lire le contenu de vos pages Web.
Qui rechercherait des mots clés dans le HTML et dans les images ...
Enfin, qui vous avertirait ...
"Vous êtes sur un site qui parle de PAYPAL ... mais qui n'est pas PAYPAL !"

 

 

C'est pourquoi je vous présente : Dyrk OCR !

 

 

Capture

 

 

Alors je n'ai pas ré-inventé l'eau tiède ...
J'exploite simplement le fonctionnement standard de l'outil Tesseract !

 

Un outil que tous les linuxiens peuvent installer  :

apt-get install tesseract-ocr

 

Et que vous pouvez utiliser de la manière suivante :

tesseract monImage.png fichierDeSortie

 

Pour ce qui est de l'API, qui n'en est pas spécialement une, vous pouvez récupérer le texte d'une image en appelant l'url ainsi :

http://ocr.dyrk.org/ocr.php?png={votreUrl}

Je n'ai pas mis volontairement de sécurité ...
Après ... en cas d'abus je devrais en mettre ;)
A chacun de jouer le jeu ^^

Partagez ce contenu

Laisser une réponse

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *