Les collecteurs de données, un filon très lucratif ….
Salut à tous, et bon début de semaine !
Même si certains nagent dans leurs salons, que d’autre surfent sur l’autoroute, il faut rester positif et ce dire qu’il y a toujours plus malheureux que nous …
D’ailleurs à propos de malheur, j’en viens à aborder un sujet assez intéressant …
Beaucoup de personne très paranoïaques, se plaignent que leurs données sont revendu en cachette, à des entreprises ….
Oui c’est vrai … mais ça n’est pas toujours les personnes que l’on croit qui les vendent …
Pourquoi payer, pour ce que l’on peut obtenir gratuitement ou presque ….
Chaque jours, nous sommes des millions à publier des données …
Des photos, des statuts, des vidéos, …
Nous mettons parfois inconsciemment notre vie sur le NET, et sans restriction !
Beaucoup de Hacker, développent ce que l’on appel des Crawler.
Plus littéralement parlant des « collecteurs de données »…
Ces collecteurs, ne font rien d’autre que d’aspirer des pages Web, et de récupérer uniquement le contenu qui peut être revendu ou exploité …
Pour illustrer, rien ne vaut un exemple :
Tout d’abord un contexte :
Nous sommes sur un site internet, où des jeunes filles cherchent des gardes d’enfant.
Alex, jeune entrepreneur, souhaite vendre ses formations d’encadrement d’enfant.
Alex a peu d’argent, et souhaite constituer un fichier client au plus vite….
Il fait donc appel à une personne « officieuse » pour répondre à son besoin.
En naviguant sur le site, nous constatons que l’affichage des informations est clair et homogène :
Nous constatons que cette liste est sur plusieurs pages avec une url du style :
http://garde-d-enfant.fr/babysitter.php?page=1
Après analyse de ce contexte, « Brian » (il faut bien donner un nom aux acteurs) va réaliser un Crawler.
Ce Crawler sera un script qui parcourra chaque pages :
- http://garde-d-enfant.fr/babysitter.php?page=1
- http://garde-d-enfant.fr/babysitter.php?page=2
- http://garde-d-enfant.fr/babysitter.php?page=3
- http://garde-d-enfant.fr/babysitter.php?page=…
Et qui sur chaque page va extraire du code source les blocs de donnée (ici admettons) :
Dans ce cas là, le script va découper des « blocs » de donnée, ici on voit que pour chaque filles, les données sont stockées dans des « table« .
Le script va donc parcourir les tables, et extraire de chaque cellule « td » les données.
Pour constituer au final un beau fichier CSV.
Voilà donc :
Pour ceux qui montrent du doigts les gens tout là-haut qui revendent leurs données …
Apprenez à faire attention, aux informations, que vous pouvez publier sur internet …
Pour les autres … et bien vous venez peut être de découvrir un autre job d’été ^^