[Crawler] – Télécharger le contenu d’un site WordPress

 

Salut à tous,

Je ne sais pas vous, mais moi je fais partie de ces personnes qui aiment savoir comment les choses fonctionnent ...
Exemple :
- Comment produire de l’électricité ?
Je ne parle pas d'acheter un panneau solaire qui produira pour vous ... je parle de construire un truc de A à Z ... être capable en milieu hostile de construire avec un fil de cuivre et un aimant une dynamo ....
L’électricité c'est cool ... ça permet de s'éclairer ... mais si on à pas d'ampoule ?
- Comment produire une ampoule ?
Une bouteille en verre, 2 fils de cuivre, un peu de laine de verre ... un peu de vinaire et du bicarbonate de soude.
Bon on a du jus, on est éclairé, maintenant qu'est-ce qu'on bouffe ?
- Fabriquer une baguette de pain ?
De la farine c'est simple, il faut juste du blé écrasé, de l'eau ça se trouve, du sel ... simplement faire chauffer de l'eau ... mais .. de la levure boulangère : il faut juste laisser 3 jours macérés des fruits frais ... ?

Bref voilà des petites choses anecdotiques que l'on pourrait associer à la catégorie "survivaliste", si ça vous intéresse je pourrais en créer une (dites-le-moi par commentaire).

 

Un site pour des expériences amusantes 

L'idée de cet article m'est venu en allant sur ce site : "https://petitesexperiences.com"
C'est un petit coup de pub gratuit !
Si vous avez des enfants je vous invite à aller sur ce site vous y trouverez plein d’expériences assez simples qui leur permettront de comprendre mieux certains phénomènes.

Voilà le coup de pub est fini, place au concret !

J'ai voulu m'inscrire sur ce site pour "télécharger" les fiches des expériences.
Alors non seulement vous n'aurez que 3 fiches qui vous seront envoyées par "email" ...
Mais ça c'est dans le meilleur des cas ...

J'ai testé 4 emails différents et je n'ai jamais reçu le moindre mail.

C'est là que l'idée m'est venu !

En analysant le site, j'ai constaté quelques petites bricoles ...
Comme la possibilité de consulter le contenu de certains dossiers

Ce qui permet finalement de récupérer les 3 fiches d'expériences gratuites dont je vous parlais précédemment ;)

 

En regardant le code source des pages du site internet, il ne m'a fallut que quelques secondes pour identifier le CMS utilisé

 

Télécharger les articles / pages d'un site WordPress

 

Comme je vous l'ai dit, l'idée m'est venu en allant sur ce site WordPress d'écrire un article pour vous permettre en quelques lignes de Javascript, de faire un "aspirateur" de contenu !

Voici donc ces quelques lignes  :

var html = document.getElementsByTagName('html')[0], download = function(pageId){
		req = new XMLHttpRequest();
        req.open('GET', ([document.location.protocol, document.location.host].join('//'))+"/?p="+pageId, true);
        req.addEventListener('load', function(e){
               	if (e.currentTarget.status != 200) return -1;
				try {
                    var title 	  = /\<title\>(.*?)\<\/title\>/.exec(e.target.response),
						filename  = /\/([a-zA-Z0-9\-\_]*)(\/$|$)/.exec(e.target.responseURL),
						text 	  = (title ? title[1] : filename[1])+'.html',
						a = document.createElement('a');
					 a.setAttribute('download', text+'.html');
					 a.textContent = text;
                     a.href='data:application/octet-stream,'+encodeURIComponent(e.target.response);
                     a.click();
					 html.appendChild(document.createElement('p'));
					 html.appendChild(a);
                } catch (e){ console.log(e); }

            })
	req.send();
};
html.textContent = "{ Dyrk.org } - Copie en cours, veuillez patienter / Dump .. please Wait : ";
for (var i=0;i<=1000;i++) setTimeout(download.bind(null, i), 250*i);

 

Ce script vous permettra de récupérer uniquement les pages et non les éléments liés (image, fichier de script, css, etc ...)
Mais c'est plutôt utile pour récupérer des contenus qui pourraient disparaître du jour au lendemain.

Comment ça marche ?

Vous devriez normalement avoir l'habitude ^^
Il  vous suffit d'aller sur le site à "dumper", et de balancer le script dans la console développeur (Touche F12, onglet "console")

Validez et patientez quelques secondes / minutes (selon la quantité de contenu du site)

Conclusion

Je vous souhaite une très bonne fin de weekend, et une bonne copie ^^

 

Partagez ce contenu

Laisser une réponse

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *