Intégration de données/Connexion

La connexion des données, qu’est-ce que c’est ?

Le principe même de l’intégration des données est de regrouper et d’assembler des données hétérogènes en provenance de sources variées et multiples afin d’en construire un ensemble homogène. Le but étant de rendre les données exploitables afin d’avoir un outil fiable d’aide à la décision. Le terme connexion désigne simplement l’acheminement de la base de données source à l’entrepôt de données de destination.

Et donc, comment ça marche ?

La connexion entre les données sources et la base de données de destination se fait en trois étapes principales :

Extraction : Tout d’abord il faut extraire les données des sources (HTML, XML, fichiers textes, etc.).
Transformation : Il faut dans un second temps transformer les données afin qu’elles deviennent similaires dans le fichier cible et ainsi exploitables.
Chargement : Enfin, les données doivent être stockées dans le Data Warehouse cible.

schéma ETL

Notons que toutes les étapes peuvent être réalisées par un même logiciel et que cette décomposition est surtout un moyen de mieux comprendre le déroulement de la procédure.

La communication de données peut se faire via des gestionnaires de connexions tels qu’ORACLE, SAPBI, TERADATA ou encore grâce à des gestionnaires de connexions personnalisés. La personnalisation est réalisable par des programmes spéciaux, qu’il est nécessaire de maîtriser dans cette méthode.

Cet article est issu de Wikiversity. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.