Les collecteurs de données, un filon très lucratif ….

Salut à tous, et bon début de semaine !

 

 

Même si certains nagent dans leurs salons, que d'autre surfent sur l'autoroute, il faut rester positif et ce dire qu'il y a toujours plus malheureux que nous  ...

 

 

D'ailleurs à propos de malheur, j'en viens à aborder un sujet assez intéressant ...

 

Beaucoup de personne très paranoïaques, se plaignent que leurs données sont revendu en cachette, à des entreprises ....
Oui c'est vrai ... mais ça n'est pas toujours les personnes que l'on croit qui les vendent  ...

 

Pourquoi payer, pour ce que l'on peut obtenir gratuitement ou presque ....

 

 

Chaque jours, nous sommes des millions à publier des données ...
Des photos, des statuts, des vidéos, ...
Nous mettons parfois inconsciemment notre vie sur le NET, et sans restriction !

 

Beaucoup de Hacker, développent ce que l'on appel des Crawler.
Plus littéralement parlant des "collecteurs de données"...

Ces collecteurs, ne font rien d'autre que d'aspirer des pages Web, et de récupérer uniquement le contenu qui peut être revendu ou exploité ...

 

Pour illustrer, rien ne vaut un exemple :

 

Tout d'abord un contexte :

Nous sommes sur un site internet, où des jeunes filles cherchent des gardes d'enfant.
Alex, jeune entrepreneur, souhaite vendre ses formations d'encadrement d'enfant.
Alex a peu d'argent, et souhaite constituer un fichier client au plus vite....
Il fait donc appel à une personne "officieuse" pour répondre à son besoin.

 

En naviguant sur le site, nous constatons que l'affichage des informations est clair et homogène :

Sans titre

 

Nous constatons que cette liste est sur plusieurs pages avec une url du style :

 

http://garde-d-enfant.fr/babysitter.php?page=1

 

Après analyse de ce contexte, "Brian" (il faut bien donner un nom aux acteurs) va réaliser un Crawler.

Ce Crawler sera un script qui parcourra chaque pages :

  • http://garde-d-enfant.fr/babysitter.php?page=1
  • http://garde-d-enfant.fr/babysitter.php?page=2
  • http://garde-d-enfant.fr/babysitter.php?page=3
  • http://garde-d-enfant.fr/babysitter.php?page=...

 

Et qui sur chaque page va extraire du code source les blocs de donnée (ici admettons) :

<!-- fille 1 -->

< table>
< tr>< td> Eloise</ td>< td> Durand</ td>< td> 0612457889 </ td>< td> elo.durand@yopmail.fr</ td></ tr>
....
</ table>


<!-- fille 2 -- >

< table>
< tr>< td> Marie</ td><td> Antoinette</ td>< td> 0696521478 </ td>< td> marie.antoinette@gmail.com</ td></ tr>
....
</ table>

...

 

Dans ce cas là, le script va découper des "blocs" de donnée, ici on voit que pour chaque filles, les données sont stockées dans des "table".
Le script va donc parcourir les tables, et extraire de chaque cellule "td" les données.

Pour constituer au final un beau fichier CSV.

 

Voilà donc :

Pour ceux qui montrent du doigts les gens tout là-haut qui revendent leurs données ...

 

Apprenez à faire attention, aux informations, que vous pouvez publier sur internet ...

 

Pour les autres ... et bien vous venez peut être de découvrir un autre job d'été ^^

 

Partagez ce contenu

Laisser une réponse

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *