SageMaker Unified Studio : votre plateforme d'analyse AWS tout-en-un

DEV - 30/12
Pour commencer, je dois dire que SageMaker Unified Studio (nous utiliserons plus tard SUS comme abréviation) prête à confusion...

Pour commencer, je dois dire que SageMaker Unified Studio (nous utiliserons plus tard SUS comme abréviation) prête à confusion si vous venez des services analytiques AWS individuels traditionnels, car il englobe tous les services avec lesquels vous avez déjà travaillé, comme ci-dessous :

  • S3 : Stockage
  • Lake Formation : gouvernance des données avec des autorisations précises
  • Glue : pour les charges de travail Spark et la gestion des catalogues de données
  • Redshift : entrepôt de données
  • Athena : requêtes SQL ad hoc
  • SageMaker Notebook : exécuter des scripts Python ou se connecter à des sessions interactives Glue
  • Bedrock : pour les composants d'IA générative et agentique
  • Amazon Q : Pour la génération de code assistée par l'IA (SQL et Python)
  • DataZone : pour le catalogue professionnel, la gestion de projet et le partage de données entre domaines
  • EMR : Pour le traitement du Big Data avec Spark

Les différents composants et services ajoutent une surcharge opérationnelle et de gouvernance pour les données, le calcul et la sécurité, et ils existent en silo.

Cela amène le besoin d’une architecture Lakehouse.

Désormais, avec Unified Studio, vous disposez de l'ensemble du stockage, du calcul (Athena, EMR, Redshift et Glue) et de la gouvernance (DataZone et Lake Formation) regroupés sous un seul et même parapluie géré.

Mais voici la partie intéressante : SUS fournit une plate-forme unifiée pour mettre en œuvre l'architecture Lakehouse de manière transparente. Et avant de vous demander « pourquoi Lakehouse ? » – laissez-moi vous expliquer le problème que cela résout.

Le problème : pourquoi nous avons besoin de l’architecture Lakehouse

Vous vous demandez peut-être pourquoi parlons-nous d’architecture de maison au bord d’un lac ? Parce que cela résout un énorme problème que vous avez probablement rencontré.

Le désordre traditionnel auquel nous avons tous été confrontés

Scénario 1 : l'approche du lac de données

  • Vous videz toutes vos données dans S3 (stockage bon marché ✅)
  • Mais maintenant, vous devez exécuter des analyses...
  • Les performances sont terribles ❌
  • Aucune transaction ACID ❌
  • Application de la qualité des données ? Bonne chance! ❌
  • Résultat : vous finissez par copier les données vers Redshift pour des analyses réelles

Scénario 2 : l'approche de l'entrepôt ...
[Courte citation de 8% de l'article original]

Loading...