Jour 1
MODULE 1 : LES FONDAMENTAUX ET LA STRATÉGIE DE DONNÉES
Avant d’aborder les outils et les technologies, nous nous concentrons sur les concepts essentiels, les principes de conception et la valeur métier.
- Introduction : rappel historique sur l’évolution de la donnée (Silos /Data Warehouse / Data Lake / Lakehouse)
- Le rôle de l'Architecte Data : différences avec le Data Engineer et le Data Scientist
- CAP Theorem & PACELC : comment les systèmes distribués équilibrent cohérence, disponibilité et latence
- OLTP vs OLAP : comprendre pourquoi il est essentiel de séparer les charges de travail transactionnelles (OLTP) et analytiques (OLAP)
MODULE 2 : MODÉLISATION DE LA DONNÉE (LE COEUR DU MÉTIER)
La modélisation des données a un coût : apprenez à structurer vos données pour éviter les erreurs coûteuses.
- Modélisation relationnelle : 3NF (Troisième forme normale)pour éviter les redondances et anomalies
- Modélisation dimensionnelle (Kimball) : schémas en étoile et en flocon, et gestion des changements lents (SCD)
- Data Vault 2.0 : concevoir des entrepôts de données d’entreprise à la fois agiles et auditables
- Modélisation NoSQL :
- Document (MongoDB), Clé-Valeur (Redis), Colonne (Cassandra), Graph (Neo4j)
- Patterns d'accès vs normalisation
Jour 2
MODULE 3 : PARADIGMES D'ARCHITECTURE MODERNE
Les clés pour assembler les briques et former un écosystème fonctionnel.
- Data Warehouse Cloud : Snowflake, BigQuery, Redshift. Architecture Compute/Storage découplé
- Data Lake : Stockage objet (S3, ADLS), formats de fichiers (Parquet, Avro, Delta Lake, Iceberg)
- Lakehouse : le meilleur des deux mondes (ACID directement sur le lac de données). Focus sur Databricks/Delta ou Apache Iceberg ou Ducklakehouse
- Architecture Lambda vs Kappa : gestion du temps réel et du batch
- Data Mesh & Data Fabric :
- Décentralisation (Domain-Driven Design appliqué à la data)
- La donnée comme produit (Data as a Product)
- Gouvernance fédérée
MODULE 4 : INTÉGRATION ET PIPELINES DE DONNÉES
Assurer la circulation des données de la source vers la destination.
- ETL vs ELT : Pourquoi le "T" (Transformation) se déplace vers la fin ?
- Batch Processing : Orchestration avec Apache Airflow, Prefect ou Dagster
- Streaming & Event-Driven : Apache Kafka, Pulsar. Concepts de Producers/Consumers, Topics, partitions
- CDC (Change Data Capture) : capter les événements en temps réel depuis les bases de production
Jour 3
MODULE 5 : GOUVERNANCE, QUALITÉ ET SÉCURITÉ
Sans maîtrise, la puissance n'est rien.
- Data Quality : les 6 dimensions de la qualité. Outils de test (Great Expectations, dbt tests)
- Data Catalog & Lineage : Savoir d'où vient la donnée (DataHub, Alation, Collibra)
- Sécurité et Conformité : RBAC, ABAC, chiffrement, anonymisation, RGPD/GDPR
- FinOps Data : contrôler les coûts du Cloud
MODULE 6 : ARCHITECTURE POUR L'IA ET LE MACHINE LEARNING
Créer les conditions de succès pour les Data Scientists et l’IA générative.
- Feature Stores : centraliser les variables pour le ML (Feast, Hopsworks)
- Architecture MLOps : intégration du cycle de vie des modèles (Entraînement, Déploiement, Monitoring)
- Architecture pour l'IA Générative (LLM) :
- Vector Databases : Pinecone, Weaviate, pgvector (pour le RAG - Retrieval Augmented Generation)
- Gestion des données non structurées (PDF, Images, Audio)
- Pipelines d'ingestion pour LLM (LangChain/LlamaIndex)