Table des matières

, , , ,

Aspiration de sites avec httrack

Httrack est un célèbre aspirateur de sites web.

Avertissement

Les sites volumineux (le forum et la documentation Ubuntu-fr compris), ne doivent pas être aspirés automatiquement, sous peine de blocage de votre adresse IP par le site. L'aspiration de sites doit respecter une certaine éthique et doit être utilisée uniquement lorsqu'il y a un besoin d'accéder à des contenus hors lignes. L'aspiration demande au site visé des ressources matérielles bien plus importante que le simple affichage d'une page web. Demandez l'autorisation au webmaster avant de procéder ! N'oublions pas non plus les problématiques liées à la propriété intellectuelle.

Installation

Il existe deux versions de httrack :

Utilisation

Votre navigateur doit être fermé avant de lancer webhttrack.

Nous allons nous intéresser ici à la version graphique, disponible dans le menu Internet ⇒ « WebHTTrack Website Copier »

Le raccourci créé dans le menu Applications comporte la commande “webhttrack browse”. Il lance l'index des sites déjà enregistrés. Pour un premier lancement il faut lancer la commande

webhttrack

Votre navigateur ouvre alors un nouvel onglet.

Des options plus avancées sont disponibles. N'hésitez-pas à expérimenter ! Par exemple, si vos sites aspirés présentent des défauts dans les images téléchargées, cela peut venir du nombre de connexions - options, onglet contrôle du flux - trop importantes. Ramener à 2 ou 1.

Utilisation en ligne de commande

Crée un miroir :

httrack --mirror http://www.monsite.com

Mettre à jour le projet courant :

httrack --update

Nettoyage du cache et fichier log :

httrack --clean

Voir aussi