Aller directement au contenu
Format : Stage pratique
Niveau Fondamentaux
Répartition du temps : 50% exposés
40% pratique
10% échanges

La formation en détails

Description

Si les algorithmes de Machine Learning ont connu des avancées majeures ces dernières années, c'est avant tout grâce à la quantité d'information disponible pour les entraîner. Accumuler toute cette donnée, la traiter, et la rendre disponible sont les enjeux principaux du mouvement Big Data.

Au cours de cette formation, nos consultants mettent à disposition les connaissances issues de leurs retours d'expériences auprès de nos clients, et vous font découvrir les bases des architectures permettant de répondre à ces enjeux de stockage et d'accès.

Objectifs

  • Découvrir les notions centrales de stockage de données
  • Préciser les enjeux des nouvelles architectures de données (Hadoop, NoSQL, Spark), et positionner leurs usages au sein de l'univers Big Data
  • Manipuler ces technologies et les bases de données de façon conjointe, pour mener à bien des analyses efficaces

Public cible

  • Analyste
  • Statisticien
  • Développeur

Prérequis

  • Notions de programmation sur la base d'un langage quelconque
  • Manipulation basique de la ligne de commande Linux

Modalités pédagogiques

Formation avec apports théoriques, échanges sur les contextes des participants et retours d'expérience pratique du formateur, complétés de travaux pratiques et de mises en situation.
Logo Accessibilité

Accessibilité

L'inclusion est un sujet important pour OCTO Academy.
Nos référent·es sont à votre disposition pour faciliter l'adaptation de votre formation à vos besoins spécifiques.

Notre politique accessibilité Contacter nos référent·es

Profil du formateur

Cette formation est dispensée par un·e ou plusieurs consultant·es d'OCTO Technology ou de son réseau de partenaires, expert·es reconnus des sujets traités.

Le processus de sélection de nos formateurs et formatrices est exigeant et repose sur une évaluation rigoureuse leurs capacités techniques, de leur expérience professionnelle et de leurs compétences pédagogiques.

Modalités d'évaluation et de suivi

L'évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique.

Afin de valider les compétences acquises lors de la formation, un formulaire d'auto-positionnement est envoyé en amont et en aval de celle-ci.

En l'absence de réponse d'un ou plusieurs participants, un temps sera consacré en ouverture de session pour prendre connaissance du positionnement de chaque stagiaire sur les objectifs pédagogiques évalués.

Une évaluation à chaud est également effectuée en fin de session pour mesurer la satisfaction des stagiaires et un certificat de réalisation leur est adressé individuellement.

Programme détaillé

Jour 1

 

MODULE 1 : LES FONDAMENTAUX ET LA STRATÉGIE DE DONNÉES 

 

Avant d’aborder les outils et les technologies, nous nous concentrons sur les concepts essentiels, les principes de conception et la valeur métier.

 

  • Introduction : rappel historique sur l’évolution de la donnée (Silos /Data Warehouse / Data Lake / Lakehouse)
  • Le rôle de l'Architecte Data : différences avec le Data Engineer et le Data Scientist
  • CAP Theorem & PACELC : comment les systèmes distribués équilibrent cohérence, disponibilité et latence
  • OLTP vs OLAP : comprendre pourquoi il est essentiel de séparer les charges de travail transactionnelles (OLTP) et analytiques (OLAP)

 

MODULE 2 : MODÉLISATION DE LA DONNÉE (LE COEUR DU MÉTIER)

 

La modélisation des données a un coût : apprenez à structurer vos données pour éviter les erreurs coûteuses.

 

  • Modélisation relationnelle : 3NF (Troisième forme normale)pour éviter les redondances et anomalies
  • Modélisation dimensionnelle (Kimball) : schémas en étoile et en flocon, et gestion des changements lents (SCD)
  • Data Vault 2.0 : concevoir des entrepôts de données d’entreprise à la fois agiles et auditables
  • Modélisation NoSQL :
    • Document (MongoDB), Clé-Valeur (Redis), Colonne (Cassandra), Graph (Neo4j)
    • Patterns d'accès vs normalisation

 

Jour 2

 

MODULE 3 : PARADIGMES D'ARCHITECTURE MODERNE

 

Les clés pour assembler les briques et former un écosystème fonctionnel.

 

  • Data Warehouse Cloud : Snowflake, BigQuery, Redshift. Architecture Compute/Storage découplé
  • Data Lake : Stockage objet (S3, ADLS), formats de fichiers (Parquet, Avro, Delta Lake, Iceberg)
  • Lakehouse : le meilleur des deux mondes (ACID directement sur le lac de données). Focus sur Databricks/Delta ou Apache Iceberg ou Ducklakehouse
  • Architecture Lambda vs Kappa : gestion du temps réel et du batch
  • Data Mesh & Data Fabric :
    • Décentralisation (Domain-Driven Design appliqué à la data)
    • La donnée comme produit (Data as a Product)
    • Gouvernance fédérée

 

MODULE 4 : INTÉGRATION ET PIPELINES DE DONNÉES 

 

Assurer la circulation des données de la source vers la destination.

 

  • ETL vs ELT : Pourquoi le "T" (Transformation) se déplace vers la fin ?
  • Batch Processing : Orchestration avec Apache Airflow, Prefect ou Dagster
  • Streaming & Event-Driven : Apache Kafka, Pulsar. Concepts de Producers/Consumers, Topics, partitions
  • CDC (Change Data Capture) : capter les événements en temps réel depuis les bases de production

 

Jour 3

 

MODULE 5 : GOUVERNANCE, QUALITÉ ET SÉCURITÉ

 

Sans maîtrise, la puissance n'est rien.

 

  • Data Quality : les 6 dimensions de la qualité. Outils de test (Great Expectations, dbt tests)
  • Data Catalog & Lineage : Savoir d'où vient la donnée (DataHub, Alation, Collibra)
  • Sécurité et Conformité : RBAC, ABAC, chiffrement, anonymisation, RGPD/GDPR
  • FinOps Data : contrôler les coûts du Cloud

 

MODULE 6 : ARCHITECTURE POUR L'IA ET LE MACHINE LEARNING  

 

Créer les conditions de succès pour les Data Scientists et l’IA générative.

 

  • Feature Stores : centraliser les variables pour le ML (Feast, Hopsworks)
  • Architecture MLOps : intégration du cycle de vie des modèles (Entraînement, Déploiement, Monitoring)
  • Architecture pour l'IA Générative (LLM) :
    • Vector Databases : Pinecone, Weaviate, pgvector (pour le RAG - Retrieval Augmented Generation)
    • Gestion des données non structurées (PDF, Images, Audio)
    • Pipelines d'ingestion pour LLM (LangChain/LlamaIndex)

Nos autres formations du domaine « Data Science » Toutes les formations du domaine

DSFDX Fondamentaux de la Data Science
S'initier à la pratique de la Data Science et constituer sa première boîte à outils de Data Scientist
Durée : 21 h / 3 j
Fondamentaux
 
 
 
 
Prochaine session : 08 avril 2026
DSNVA Data Science : niveau avancé
Approfondir des concepts avancés de machine learning et enrichir sa boîte à outils de Data Scientist
Durée : 21 h / 3 j
Avancé
 
 
 
 
Prochaine session : 27 mai 2026
DSGDP Cadrage et pilotage d'un projet de Data Science
Comprendre les spécificités d'un projet de Data Science pour mieux le piloter de la conception au delivery
Durée : 14 h / 2 j
Avancé
 
 
 
 
Prochaine session : 30 mars 2026

Besoin d'aide pour trouver votre formation ?

Contactez-nous

Sessions & Inscriptions

Session partagée avec d'autres organisations

Prochaines sessions
  • du 10 au 12/06/2026
    Présentiel, Paris
    2 500,00 € HT
  • du 23 au 25/11/2026
    Présentiel, Paris
    2 500,00 € HT
Durée
21 h / 3 j

Demander un devis Nous contacter
Télécharger le programme

Organiser une session dédiée à votre organisation

Durée
21 h / 3 j

Vous avez plusieurs collaborateurs à former ?

Cette formation peut être organisée
sous la forme de sessions dédiées
aux membres de votre organisation.

Demander un devis Nous contacter Télécharger le programme

Personnaliser cette formation

Cette formation vous intéresse
et vous souhaitez l'adapter pour
vos collaborateurs ?

Nos formateurs et notre équipe pédagogique sont à
votre disposition pour en discuter
et vous proposer un programme sur-mesure.

Nous contacter Télécharger le programme

OCTO Academy respecte votre vie privée

Ce site web stocke des informations vous concernant via le dépôt de cookie afin de mesurer l’audience du site. Ces données de navigation sont anonymisées.

En cliquant sur « OK pour moi », vous manifestez votre consentement pour le dépôt de ces cookies.

Lire la politique de confidentialité

À propos des cookies

Sur ce site, nous utilisons des cookies pour mesurer notre audience, entretenir la relation avec vous et vous adresser de temps à autre du contenu qualitif ainsi que de la publicité. Vous pouvez sélectionner ici ceux que vous autorisez à rester ici.

Cookies