OutWit Hub
OutWit Hub est un logiciel de scraping Web, conçu pour extraire et collecter automatiquement des informations à partir de ressources en ligne ou locales.
Développé par | OutWit Technologies |
---|---|
Dernière version | 9.0 |
Système d'exploitation | Microsoft Windows, macOS et Linux |
Type | logiciel de web scraping, gestionnaire de téléchargement |
Licence | licence propriétaire |
Site web | www.outwit.com |
Le programme reconnaît et récolte liens, images, documents, contacts, mots et groupes de mots récurrents, flux rss et convertit les données structurées ou non en tables formatées qui peuvent être exportées vers des feuilles de calcul ou des bases de données. La première version du logiciel est sortie à la fin de 2010. La version 9.0 est disponible depuis .
Description
Le programme comprend un navigateur Web et un panneau latéral qui donne accès à un certain nombre de vues contenant les données provenant d'extracteurs pré-définis. Les pages Web et les documents textuels sont décomposés en différents constituants et présentés sous forme de tables dans ces vues. L'application peut parcourir automatiquement des séries de liens ou des séquences de pages de résultats de moteurs de recherche pour extraire les éléments d'information recherchés, les organiser en tables et les exporter dans différents formats. Les extracteurs pré-définis permettent de récolter des tables structurées, des listes et des flux[1]. Si ces extractions automatiques ne suffisent pas, l'utilisateur peut aussi créer des scrapers spécifiques pour extraire les éléments de pages moins structurées page[2]. Les expressions régulières peuvent être utilisées dans les scrapers ainsi que dans d'autres parties de l'application pour définir des marqueurs variables pour reconnaissance et l'extraction de données[3].
Versions
Le programme existe en deux versions : une application exécutable et un add-on Mozilla Firefox, avec des fonctionnalités identiques. Une version gratuite et limitée peut être téléchargée sur le site de l'éditeur et sur des sites de téléchargement[4].
Notes et références
- (en) « Web Scraping in Outwit Hub - Review », manoxblog, (lire en ligne)
- (en) « Using separators and labels in Outwit Hub pro », datacrumble, (lire en ligne)
- (en) « How-to: Scraping ugly HTML using ‘regular expressions’ in an OutWit Hub scraper », online journalism, (lire en ligne)
- (en) « How to use OutWit Hub to scrape data for free », interhacktives, (lire en ligne)