Httrack est un célèbre aspirateur de sites web.
Les sites volumineux (le forum et la documentation Ubuntu-fr compris), ne doivent pas être aspirés automatiquement, sous peine de blocage de votre adresse IP par le site. L'aspiration de sites doit respecter une certaine éthique et doit être utilisée uniquement lorsqu'il y a un besoin d'accéder à des contenus hors lignes. L'aspiration demande au site visé des ressources matérielles bien plus importante que le simple affichage d'une page web. Demandez l'autorisation au webmaster avant de procéder ! N'oublions pas non plus les problématiques liées à la propriété intellectuelle.
Il existe deux versions de httrack :
Votre navigateur doit être fermé avant de lancer webhttrack.
Nous allons nous intéresser ici à la version graphique, disponible dans le menu Internet ⇒ « WebHTTrack Website Copier »
webhttrack
Votre navigateur ouvre alors un nouvel onglet.
Des options plus avancées sont disponibles. N'hésitez-pas à expérimenter ! Par exemple, si vos sites aspirés présentent des défauts dans les images téléchargées, cela peut venir du nombre de connexions - options, onglet contrôle du flux - trop importantes. Ramener à 2 ou 1.
Crée un miroir :
httrack --mirror http://www.monsite.com
Mettre à jour le projet courant :
httrack --update
Nettoyage du cache et fichier log :
httrack --clean