Apache Parquet

Apache Parquet est un format orienté colonne pour l'écosysteme Apache Hadoop. Il est similaire aux autres formats de fichiers de stockage colonnaires disponibles dans Hadoop, à savoir RCFile et Optimized RCFile. Il est compatible avec la plupart des frameworks de traitement de données de l'environnement Hadoop. Il fournit des schémas efficaces de compression et d'encodage de données avec des performances améliorées pour gérer des données complexes en masse. Le projet open source qui a abouti à Apache Parquet vient des efforts conjoints entre Twitter[2] et Cloudera[3]. La première version de Apache Parquet 1.0 sort en juillet 2013. Depuis le 27 avril 2015 Apache Parquet devient un projet top-level de la Apache Software Foundation [4]^,[5]

Apache Parquet

Informations
Développé par	Apache Software Foundation
Première version	13 mai 2015[1]
Dépôt	git-wip-us.apache.org/repos/asf/parquet-mr.git
Écrit en	Java
Type	Format de fichier (en) Format de sérialisation de données (d) Projet de la fondation Apache (d)
Licence	Licence Apache version 2.0
Site web	parquet.apache.org et parquet.apache.org

Articles connexes

Notes et références

« https://projects.apache.org/json/projects/parquet.json » (consulté le 8 avril 2020)
« Announcing Parquet 1.0 : Columnar Storage for Hadoop », sur twitter.com (consulté le 13 septembre 2020).
(en) « Cloudera Blog - », sur Cloudera Blog (consulté le 13 septembre 2020).
(en) « Apache Parquet paves the way for better Hadoop data storage », sur InfoWorld (consulté le 13 septembre 2020).
https://blogs.apache.org/foundation/entry/the_apache_software_foundation_announces75

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Apache Parquet » (voir la liste des auteurs).

Portail des logiciels libres
Portail des données

Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.

[wikidata-0537a5fa90197adb2b0005683655600588df746f-1] « https://projects.apache.org/json/projects/parquet.json » (consulté le 8 avril 2020)

[2] « Announcing Parquet 1.0 : Columnar Storage for Hadoop », sur twitter.com (consulté le 13 septembre 2020).

[3] (en) « Cloudera Blog - », sur Cloudera Blog (consulté le 13 septembre 2020).

[4] (en) « Apache Parquet paves the way for better Hadoop data storage », sur InfoWorld (consulté le 13 septembre 2020).

[5] ttps://blogs.apache.org/foundation/entry/the_apache_software_foundation_announces75