Logiciels de fouille de données

Les logiciels de fouille de données sont des programmes spécialisés dans l'analyse et l'extraction des connaissances à partir des données informatisées. Ce sont des logiciels qui aident l'analyste en exploration de données à trouver des motifs remarquables et intéressants. Il peut s'agir de logiciels commerciaux ou de logiciels libres.

Logiciels libres

Parmi les logiciels libres, quelques-uns sortent du lot :

Logo de Knime

KNIME (prononcer NAÏM), acronyme de Konstanz Information Miner[1], est un logiciel libre édité par un laboratoire de l'université de Constance dénommé Nycomed Chair for Bioinformatics and Information Mining[2],[3]. Il intègre notamment tous les modules d'analyse de Weka et permet de créer des scripts en langage R. Ces deux logiciels sont décrits ci-dessous. KNIME s'exécute sur Linux, Windows et MacOS. Comme tous les logiciels libres, KNIME est extensible.

Logo de R

R[4] est un langage et un environnement permettant d'effectuer des calculs statistiques et de créer leurs graphiques. Sous licence GNU, R est semblable au langage S et à son environnement créé aux Laboratoires Bell par John Chambers et ses collègues. R peut être considéré comme une autre mise en œuvre de S. Il y a quelques différences importantes, mais beaucoup de code écrit pour S s'exécute inchangé sous R. R fournit un large éventail de techniques statistiques et graphiques telles que la modélisation linéaire et non linéaire, les tests statistiques classiques, l'analyse des séries chronologiques, la classification et le clustering, entre autres. Il peut être fortement étendu par des programmes développés par la communauté. Le langage S est souvent le véhicule de choix pour la recherche en matière de méthodologie statistique, et R fournit une voie open source à la participation à cette activité. Un des atouts de R est la facilité avec laquelle des graphiques bien conçus, de qualité digne de publication, peuvent être produits, contenant des symboles mathématiques et des formules si besoin est. Un grand soin a été accordé à la prise en charge des options par défaut pour les choix mineurs dans la conception des graphiques, mais l'utilisateur conserve le contrôle complet de ces options. R est publié selon les termes de la licence GNU sous forme de code source. Il se compile et s'exécute sous une grande variété de plates-formes UNIX et de systèmes similaires, y compris FreeBSD et Linux, Windows et MacOS.

Logo d'Orange

Orange[5] est un logiciel libre créé à l'université de Ljubljana en Slovénie. Ce logiciel est doté d'une interface homme-machine conviviale. Il est développé en C++ et en Python. Chaque algorithme se présente sous la forme de widgets pouvant avoir une entrée et une sortie ; ils sont agencés dans une fenêtre[6].RapidMiner est un logiciel libre distribué par la société Rapid-I[7], basée à Dortmund en Allemagne. Il intègre le Business Intelligence dont les principales fonctionnalités sont l'ETL, l'OLAP, la production d'états et l'exploration de données et les techniques classiques comme les SVM, l'ACP, les arbres de décision et les réseaux neuronaux. Ce produit est aussi distribué en version commerciale.

Tanagra[8] est un logiciel libre d'exploration de données développé sous la direction de Ricco Rakotomalala du laboratoire ERIC de l'Université Lumière Lyon 2. Il permet d'effectuer les traitements d'analyses factorielles telles que l'ACP, l'AFC, l'ACM, la régression PLS, de classification non supervisée avec l'algorithme des k-means et l'algorithme hiérarchique ascendant. Il permet aussi d'importer des fichiers au format weka[6].

Logo de Weka

Weka est un logiciel libre de fouille de données créé par l'université de Waikato (Nouvelle-Zélande). C'est une collection d'algorithmes d'apprentissage automatique mis en place pour effectuer des tâches d'exploration de données[9]. Les algorithmes peuvent soit être appliqués directement à un ensemble de données soit être appelés directement par un code Java développé par une équipe informatique indépendante par exemple. Weka contient des outils pour les prétraitements des données, la classification, la régression, le clustering, les règles d'association et la visualisation. Il est également bien adapté au développement de nouveaux schémas pour l'apprentissage automatique. C'est un logiciel open source publié sous la LGPL[6].

Logiciels commerciaux

Les logiciels commerciaux sont édités par des sociétés bien connues sur le marché.

KXEN Analytic Framework est un logiciel commercial édité par la société KXEN[10] basée en Californie et fondée en 1998. Les modules de KXEN Analytic Framework permettent la prédiction, la segmentation, les associations, la prévision à l'aide de KPIs, la fouille de textes et l'analyse des réseaux sociaux.

Logo de SAS

Microsoft propose une solution de fouille de données limitée, déduite de son offre en Business intelligence[11], que l'on peut mettre en place soit en utilisant les outils de développement associés à SSAS pour la population des développeurs, soit en utilisant l'Add-in Data mining proposé pour Excel 2007 ou Powerpivot pour les statisticiens.

SAS Enterprise Miner est un outil commercial édité par la société SAS Institute Inc.[12]. C'est un logiciel offrant toutes les facettes de l'exploration de données dont le processus est facilité par son interface homme-machine bien conçue.[non neutre]

Le logo de SPSS

SPSS[13] (Statistical Package for the Social Sciences) est un logiciel de statistiques, édité par la filiale d'IBM du même nom, qui se décompose en plusieurs modules dont SPSS Modeler pour le Data mining, SPSS Amos pour les modèles d'équation structurelle et Predictive Analytics pour l'analyse prédictive.

Statistica Data Miner[14], de la société Statsoft, Inc, est un logiciel commercial intégrant diverses techniques statistiques et graphiques, des algorithmes de réseaux de neurones, des méthodes avancées d'arbres de décision, des règles d'association, du boosting, des forêts aléatoires, de la fouille de texte, de l'optimisation de processus et différentes techniques de modélisation prédictive pour des tâches de classification ou de régression.

Braincube[15], de la société IP Leanware, est une solution cloud leader mondial sur le marché émergent de l'Operational Intelligence qui intègre des algorithmes en grille pour la mesure des impacts entre variables et la recherche de solution de réglages optimaux. C'est la première solution bigdata utilisée dans les usines de production de masse.

GPC System est une société qui développe une solution originale et brevetée d'analyse multivariée des procédés de fabrication discrets et continus. Ses algorithmes exclusifs permettent de détecter en temps réel des anomalies en cours de survenance. Les anomalies sont détectées par analyse statistique spécifique multidimensionnelle (ellipsoïde de bon fonctionnement avec détection de directions de fuites) puis analysées par les gens de métier. Elles sont alors décrites clairement pour les opérateurs des lignes de production. Des consignes explicites d'actions, préventives ou curatives, sont également définies pour assurer un pilotage optimisé et la conformité finale du produit. Exemple de fonctionnement "Temps réel"

CORICO est un logiciel commercial intégrant l’ Iconographie des corrélations et les Interactions logiques, qui se prêtent bien à l’analyse multi relationnelle. Il intègre aussi une technique de modélisation prédictive fondée sur les modèles de régression multiple postulés et non postulés.

Logiciels spécialisés

En fouille de données spatiales, les logiciels sont aptes à analyser, requêter et tenir compte des spécificités des données spatiales.

Satisfaction des utilisateurs

Les outils les plus utilisés[16] sont, en 2009, dans l'ordre, SPSS, RapidMiner, SAS, Excel, R, KXEN, Weka, Matlab, Knime, Microsoft SQL Server, Oracle DM et STATISTICA.

R[17] est l'outil le plus utilisé parmi les utilisateurs ayant répondu au sondage de Rexer Analytics[18] et STATISTICA apparaît comme l'outil de data mining préféré par la plupart des dataminers (18 %). STATISTICA, IBM SPSS Modeler, et R ont reçu les taux de satisfaction les plus élevés à la fois en 2010 et 2009 dans ce sondage de Rexer Analytics.

Références

  1. (en) « KNIME : Site officiel » (consulté le )
  2. (en) « Chair for Bioinformatics and Information Mining : Site officiel » (consulté le )
  3. (en) « University of konstanz : Site officiel » (consulté le )
  4. (en) The R Foundation for Statistical Computing, « Traduction du paragraphe : « Introduction to R » » (consulté le )
  5. (en) « Orange : Site Officiel » (consulté le )
  6. René Lefebure, « Pour une comparaison Weka, Tanagra, Orange » (consulté le )
  7. (en) « Rapid-I : site officiel » (consulté le )
  8. Ricco Rakotomalala, « Tutoriels Tanagra pour le Data Mining » (consulté le )
  9. (en) « Traduction du paragraphe « Weka 3: Data Mining Software in Java » » (consulté le )
  10. (en) « KXEN : Site officiel » (consulté le )
  11. (en) « Data mining with Sql server 2008R2 » (consulté le )
  12. « SAS : Site officiel » (consulté le )
  13. « SPSS : Site officiel » (consulté le )
  14. (en) « Statistica : Site officiel » (consulté le )
  15. « Braincube Cloud Solution », sur www.ipleanware.com
  16. (en) « Data Mining Tools Used Poll », (consulté le )
  17. (en) Rexer Analytics, « 2010 Data Miner Survey » (consulté le )
  18. (en) Rexer Analytics, « Rexer Analytics » (consulté le )

Voir aussi

Bibliographie

  • Stéphane Tufféry, Data Mining et statistique décisionnelle : l'intelligence des données, Paris, éditions Technip, , 3e éd., 705 p. (ISBN 978-2-7108-0946-3, lire en ligne)
  • Portail de l’informatique
  • Portail des probabilités et de la statistique
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.