Web scraping

Le web scraping (parfois appelé harvesting) est une technique d'extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte, par exemple le référencement[1].

Légalité

Aux États-Unis

Aux États-Unis, la société hiQ Labs utilise le web scraping sur les données de LinkedIn à des fins de recrutement. À la suite d'un procès, la Cour d'appel des États-Unis pour le neuvième circuit donne raison à hiQ en  : la cour considère notamment que les utilisateurs conservent la propriété de leurs profils, et que les données étant librement diffusées sur Internet, elles peuvent être collectées[2]. L'affaire est ensuite portée devant la Cour suprême[3].

En Europe

Dans un jugement de 2013, la cour de justice de l'Union européenne a condamné le métamoteur de recherche Innoweb, qui réutilisait les données de l'entreprise de vente d'automobiles Wegener sans aucune modification de celles-ci[4].

Le , la CNIL a publié de nouvelles directives sur le web scraping[5]. Les lignes directrices de la CNIL précisent que les données accessibles au public sont toujours des données personnelles et qu'elles ne peuvent pas être réutilisées à l'insu de la personne à laquelle ces données appartiennent[6].

Applications utilisant le Web scraping

Utilisation dans la gestion de données multimédia

Le web scraping peut être utilisé pour récupérer des métadonnées. C'est ainsi que la bibliothèque multimédia XBMC récupère les informations sur les médias qu'elle gère (affiches et résumés des films et séries télévisées, jaquette des albums…) sur différents sites tels que IMDb ou AlloCiné au moyen de scrapers dédiés[7].

Notes et références

  1. Régis Micheli et Jean-Noël Anderruthy, Le Référencement Publicitaire avec Google AdWords : Astuces, conseils : toutes les techniques d'experts certifiés., (lire en ligne)
  2. Clément Bohic, « LinkedIn échoue à faire restreindre la collecte de données en ligne », sur silicon.fr, (consulté le ).
  3. (en) Wendy Davis, « Supreme Court Asks hiQ To Respond In Battle Over Data Scraping », (consulté le ).
  4. Arnaud Touati et Christina Salassidis, « Le web scraping, une technique d’extraction légale ? », sur actualité du droit, (consulté le ).
  5. « La réutilisation des données publiquement accessibles en ligne à des fins de démarchage commercial », sur Commission nationale de l'informatique et des libertés,
  6. (en) « Legal Web Scraping for Legal Purposes », sur finddatalab.com,
  7. « Scrapers - Official Kodi Wiki », sur kodi.wiki (consulté le )

Voir aussi

Articles connexes


  • Portail de l’informatique
  • Portail d’Internet
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.