Les collecteurs de données, un filon très lucratif ….

Publié le 5 octobre 2015 par #Ro0t

Salut à tous, et bon début de semaine !

Même si certains nagent dans leurs salons, que d’autre surfent sur l’autoroute, il faut rester positif et ce dire qu’il y a toujours plus malheureux que nous …

D’ailleurs à propos de malheur, j’en viens à aborder un sujet assez intéressant …

Beaucoup de personne très paranoïaques, se plaignent que leurs données sont revendu en cachette, à des entreprises ….
Oui c’est vrai … mais ça n’est pas toujours les personnes que l’on croit qui les vendent …

Pourquoi payer, pour ce que l’on peut obtenir gratuitement ou presque ….

Chaque jours, nous sommes des millions à publier des données …
Des photos, des statuts, des vidéos, …
Nous mettons parfois inconsciemment notre vie sur le NET, et sans restriction !

Beaucoup de Hacker, développent ce que l’on appel des Crawler.
Plus littéralement parlant des « collecteurs de données »…
Ces collecteurs, ne font rien d’autre que d’aspirer des pages Web, et de récupérer uniquement le contenu qui peut être revendu ou exploité …

Pour illustrer, rien ne vaut un exemple :

Tout d’abord un contexte :

Nous sommes sur un site internet, où des jeunes filles cherchent des gardes d’enfant.
Alex, jeune entrepreneur, souhaite vendre ses formations d’encadrement d’enfant.
Alex a peu d’argent, et souhaite constituer un fichier client au plus vite….
Il fait donc appel à une personne « officieuse » pour répondre à son besoin.

En naviguant sur le site, nous constatons que l’affichage des informations est clair et homogène :

Nous constatons que cette liste est sur plusieurs pages avec une url du style :

http://garde-d-enfant.fr/babysitter.php?page=1

Après analyse de ce contexte, « Brian » (il faut bien donner un nom aux acteurs) va réaliser un Crawler.

Ce Crawler sera un script qui parcourra chaque pages :

http://garde-d-enfant.fr/babysitter.php?page=1
http://garde-d-enfant.fr/babysitter.php?page=2
http://garde-d-enfant.fr/babysitter.php?page=3
http://garde-d-enfant.fr/babysitter.php?page=…

Et qui sur chaque page va extraire du code source les blocs de donnée (ici admettons) :

[pastacode lang= »markup » message= » » highlight= » » provider= »manual »]

<!-- fille 1 -->

< table>
< tr>< td> Eloise</ td>< td> Durand</ td>< td> 0612457889 </ td>< td> [email protected]</ td></ tr>
....
</ table>


<!-- fille 2 -- >

< table>
< tr>< td> Marie</ td><td> Antoinette</ td>< td> 0696521478 </ td>< td> [email protected]</ td></ tr>
....
</ table>

...

[/pastacode]

Dans ce cas là, le script va découper des « blocs » de donnée, ici on voit que pour chaque filles, les données sont stockées dans des « table« .
Le script va donc parcourir les tables, et extraire de chaque cellule « td » les données.

Pour constituer au final un beau fichier CSV.

Voilà donc :

Pour ceux qui montrent du doigts les gens tout là-haut qui revendent leurs données …

Apprenez à faire attention, aux informations, que vous pouvez publier sur internet …

Pour les autres … et bien vous venez peut être de découvrir un autre job d’été ^^