H2O (logiciel)
H2O est un logiciel open source pour l'analyse de données Big data. Il est produit par la société H2O.ai. H2O permet aux utilisateurs de tester des milliers de modèles dans le cadre de la découverte des modèles dans les données.
H2O peut être appelé à partir de R, de programme Python, ou d'autres environnements. Il est utilisé pour l'exploration et l'analyse de données stockée dans le cloud ou systèmes tel que HDFS, ou sur des systemes plus conventionnel Linux, mac, Microsoft Windows. Le H2O logiciel est écrit en Java, Python, et R. Son interface graphique est compatible avec les quatre navigateurs: google Chrome, Safari, Firefox, et Internet Explorer.
H2O
Le H2O projet vise à développer une analyse de l'interface de l'informatique cloud, en fournissant aux utilisateurs des outils pour l'analyse des données. Le logiciel est open-source et distribué librement. La société se rémunère sur la prestation de service.
Exploration de données big data
Certains jeux de données sont trop grand pour être analysés à l'aide de logiciels traditionnels comme R. H2O fournit des structures de données et des méthodes appropriées pour le big data. H2O permettent aux utilisateurs d'analyser et de visualiser l'ensemble du jeu de données (sans avoir besoins de l'échantillonner). H2O inclut les algorithmes statistiques : K-means, modèles linéaires généralisés, distribué forêts aléatoires, gradient de stimuler les machines, naive bayes, l'analyse en composantes principales, et généralisée à faible rang de modèles[2].
H2O est également capable de fonctionner sur Spark[3].
Méthodes itératives pour les problématique temps réel
H2O utilise des méthodes itératives qui fournissent des réponses rapides à l'aide de toutes les données du client. Quand un client ne peut pas attendre pour une solution optimale, le client peut interrompre les calculs et l'utilisation d'une solution approximative. Dans son approche de l'apprentissage en profondeur[4], H2O divise les données en sous-ensembles, puis l'analyse de chaque sous-ensemble simultanément à l'aide de la même méthode. Ces processus sont combinées pour estimer les paramètres à l'aide de la Hogwild régime[5], un parallèle stochastique gradient de méthode[6]. Ces méthodes permettent H2O de fournir des réponses que l'utilisation de toutes les données du client, plutôt que de jeter la plus grande partie et de l'analyse d'un sous-ensemble avec les logiciels traditionnels.
Les langages de programmation
Le H2O logiciel dispose d'une interface pour les langages de programmation: Java (6 ou plus), Python (2.7.x, 3.5.x), R (3.0.0 ou plus) et Scala (1.4-1.6).
Les systèmes d'exploitation
Le H2O logiciel peut être exécuté sur les classiques systèmes d'exploitation: Microsoft Windows (7 ou plus récent), Mac OS X (10.9 ou version ultérieure), et Linux (Ubuntu 12.04 ; RHEL/CentOS 6 ou version ultérieure), Il fonctionne également sur de grands volumes de données systèmes, en particulier Apache Hadoop Distributed File System (HDFS), plusieurs versions populaires: Cloudera (5.1 ou version ultérieure), MapR (3.0 ou version ultérieure), et hortonworks a (HDP 2.1 ou version ultérieure). Il fonctionne également sur le cloud computing environnements, par exemple à l'aide d'Amazon EC2, Google Compute Engine, et Microsoft Azure. Le H2O l'Eau Pétillante logiciel est Databrickscertifié sur Apache Spark.
Interface utilisateur graphique et navigateurs
Son interface utilisateur graphique est compatible avec les quatre navigateurs: google Chrome, Safari, Firefox, Internet Explorer (IE10).
Références
- « Release 3.31.0 », (consulté le )
- Aiello, Spencer, Tom Kraljevic et Petr Maj, h2o: R Interface for H2O, The R Project for Statistical Computing, coll. « Contributed Packages », (lire en ligne)
- (en) « FAQ — H2O 3.10.2.1 documentation », sur docs.h2o.ai (consulté le )
- "Prediction of IncRNA using Deep Learning Approach". Tripathi, Rashmi; Kumari, Vandana; Patel, Sunil; Singh, Yashbir; Varadwaj, Pritish. International Conference on Advances in Biotechnology (BioTech). Proceedings: 138-142. Singapore: Global Science and Technology Forum. (2015)
- Description of the iterative method for computing maximum-likelihood estimates for a generalized linear model.
- Benjamin Recht, Re, Christopher, Wright, Stephen, Feng Niu, Re, Christopher, Re, Christopher, Re, Christopher, Re, Christopher, Re, Christopher et Re, Christopher, « Hogwild: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent », Advances in Neural Information Processing Systems, Curran Associates, Inc., vol. 24, , p. 693–701 (lire en ligne) Recht's PDF
- Portail de l’informatique