Data Lake - Définition

Data Lake – Définition

Glossaire Architecture d'Intégration

Un Data Lake ou lac de données va stocker une grande quantité de données brutes (raw data), sans usage précis prédéterminé.

Les données sont à destination d’un data scientist qui va pouvoir appliquer des algorithmes de machine learning ou créer des visualisations d’analyse (DataViz).

Le Data Lake va pouvoir accueillir des données structurées (base de données relationnelles ou NoSQL), semi-structurées (fichiers CSV, XML, JSON), non structurées (emails, documents), des données brutes (fichiers images, vidéos, sons), avec une alimentation par lot ou par streaming.

L’avantage du Data Lake est d’être flexible car il stocke les données brutes sans transformation, quel que soit leur format. Mais pour pouvoir qualifier les données, le Data Lake va associer des métadonnées aux données brutes.

À la différence d’un Data Warehouse qui va accueillir des données structurées pour un usage précis, à destination d’un professionnel métier.

Un Data Lake est une structure de stockage facilement accessible avec une alimentation aisée et adaptable.

La technologie la plus utilisée pour former un Data Lake est Hadoop, un framework de développement Java pour des traitements massifs de données dans des applications fortement distribuées.

Le Data Lake permet:

  • Une capacité de stockage quasi sans limite grâce à sa nature non structurée et à l’utilisation des infrastructures Cloud
  • Une rapidité de stockage avec l’absence de pré-traitement des données brutes
  • Une indépendance avec les formats et les sources des données: souplesse et polyvalence
  • Uniformisation et rationalisation du stockage des données
  • Une réduction des coûts par l’absence de traitement avant le de stockage
  • Un historique des données sur une longue période
  • Un partage et homogénéisation des données en évitant de construire des silos de données
  • Une utilisation aisée de données de plusieurs sources en recherchant, analysant et corrélant l’ensemble des données de l’entreprise
  • Une prise de décisions globale en ayant accès à l’ensemble des données disponibles.

Le Data Lake peut amener quelques difficultés si on y prend pas garde:

  • Une conservation propre et organisée du lac de données: tâche chronophage et onéreuse.
  • Quand le Data Lake devient massif et inexploitable, on parle de Data Swamp ou marécage de données.
  • Une conservation d’une gouvernance des données efficace dans le temps.
  • Un traitement et une analyse plus longue des données stockées à l’état brut.
  • Une expertise indispensable pour analyser et traiter un ensemble de données afin d’en tirer un maximum de valeur, les Data Scientists.
  • Une sécurité compliquée (confidentialité, réglementation) du fait de la nature exhaustive et ouverte du Data Lake.

Quelques fournisseurs:

Merci pour votre lecture, n’hésitez pas à partager cet article.

Je peux être amené à citer des marques (produits, solutions, entreprises) par choix rédactionnel. Mais sans indication explicite de ma part, cela ne préjuge en rien d’un quelconque partenariat ou placement de produit.

N’hésitez pas à faire part de vos connaissances et expériences pour compléter cette fiche. Utilisez les commentaires mais toujours avec bienveillance et courtoisie 😃. Au plaisir de vous lire.