Apache Parquet

Apache Parquet est un format orienté colonne pour l'écosysteme Apache Hadoop. Il est similaire aux autres formats de fichiers de stockage colonnaires disponibles dans Hadoop, à savoir RCFile et Optimized RCFile. Il est compatible avec la plupart des frameworks de traitement de données de l'environnement Hadoop. Il fournit des schémas efficaces de compression et d'encodage de données avec des performances améliorées pour gérer des données complexes en masse. Le projet open source qui a abouti à Apache Parquet vient des efforts conjoints entre Twitter[2] et Cloudera[3]. La première version de Apache Parquet 1.0 sort en . Depuis le Apache Parquet devient un projet top-level de la Apache Software Foundation [4],[5]

Pour les articles homonymes, voir Parquet.

Apache Parquet

Informations
Développé par Apache Software Foundation
Première version [1]
Dépôt git-wip-us.apache.org/repos/asf/parquet-mr.git
Écrit en Java
Type Format de fichier (en)
Format de sérialisation de données (d)
Projet de la fondation Apache (d)
Licence Licence Apache version 2.0
Site web parquet.apache.org et parquet.apache.org


Articles connexes

Notes et références

  • Portail des logiciels libres
  • Portail des données
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.