TOOLinux

Le journal du Libre

Data Lakes : rapprochement entre Delta Lake et la Linux Foundation

jeudi 17 octobre 2019

La Linux Foundation accueille Delta Lake, un projet visant à améliorer la fiabilité, la qualité et les performances des data lakes (lacs de données). Explications.

Que signifie data lakes ?

Un lac de données (en anglais data lake) est une méthode de stockage des données utilisée par le big data. Ces données sont gardées dans leurs formats originaux ou sont très peu transformées. Les données sont utilisées pour des tâches telles que la création de rapports, la visualisation, l’analyse, l’apprentissage automatique...

Plusieurs environnements fournissent des services complets permettant la gestion d’un lac de données. La plupart d’entre eux sont basés sur la technologie Hadoop.

A propos de Delta Lake

Delta Lake, annoncé par Databricks en début d’année, compte déjà un bel écosystème de soutiens, dont Intel, Alibaba et Booz Allen Hamilton. Pour favoriser davantage l’adoption et les contributions, Delta Lake devient un projet de la Linux Foundation, selon un modèle de gouvernance ouvert.

« Placer Delta Lake sous l’objectivité de la Linux Foundation aidera la communauté open source dépendante du projet à développer la technologie portant sur la manière dont les données sont traitées et stockées, tant sur site que dans le cloud  », déclare Michael Dolan, vice-président des programmes stratégiques à la Linux Foundation.

Gouvernance ouverte pour Delta Lake

Delta Lake sera doté d’un modèle de gouvernance ouvert.

Les cofondateurs de Databricks sont d’ailleurs les créateurs à l’origine du projet open source Apache Spark, le moteur analytique unifié devenu la norme de facto pour le traitement de données. Bien qu’initialement conçu pour fonctionner avec Apache Spark, Delta Lake a développé une communauté florissante qui ajoute son soutien à d’autres systèmes de données open source.