Présentation de l’architecture et des composants de Microsoft Fabric
Fabric est une plateforme analytique unifiée (SaaS) qui regroupe sous un même toit l’ingénierie des données, l’intégration, l’entreposage, la science des données et la visualisation.
Les composants principaux sont : OneLake (stockage centralisé), Data Factory (intégration), Synapse Data Warehouse (requêtes SQL), Power BI (reporting), Real-Time Intelligence (flux en temps réel). Un schéma d’architecture permet de visualiser ces composants et leurs interactions.
L’analogie clé pour un public débutant : au lieu d’avoir plusieurs outils séparés, tout est réuni dans un seul portail.
Astuce : projeter le portail Fabric en direct et naviguer dans les différentes expériences pour ancrer les concepts dans le concret.
Différences entre Microsoft Fabric et les solutions traditionnelles comme Power BI standalone
Power BI seul se concentre sur la visualisation et le reporting. Fabric couvre l’ensemble du cycle de vie des données, de l’ingestion à la consommation.
Un tableau comparatif simple est utile ici : Power BI standalone vs Fabric (stockage, transformation, collaboration, gouvernance).
Avec Fabric, il n’est plus nécessaire de gérer séparément Azure Synapse, Azure Data Factory et Power BI : tout est intégré.
Astuce : pour un public débutant, ne pas entrer dans les détails techniques d’Azure. Rester sur les bénéfices concrets : simplicité, coût, unification.
Navigation dans le portail Fabric et découverte de l’interface utilisateur
Le portail Fabric est accessible à l’adresse app.fabric.microsoft.com. L’interface comporte un menu latéral, un sélecteur d’expériences et une page d’accueil personnalisée.
Les participants peuvent se connecter avec leur compte et naviguer dans les menus pour se familiariser avec l’environnement.
Le basculement entre les expériences (Data Engineering, Data Factory, Power BI, etc.) se fait via le sélecteur en bas à gauche de l’écran.
Astuce : prévoir des captures d’écran en cas de problème de connexion des participants.
Présentation des expériences disponibles : Data Engineering, Data Factory, Data Science, Real-Time Analytics, Power BI
Chaque expérience répond à un besoin précis : Data Engineering permet de transformer de grandes quantités de données avec Apache Spark ; Data Factory permet de créer des flux d’intégration ; Data Science intègre le machine learning ; Real-Time Analytics traite les flux en continu ; Power BI produit les tableaux de bord et rapports.
Pour chaque expérience, un cas d’usage métier concret aide à la compréhension (ex. : un directeur commercial qui veut un tableau de bord en temps réel).
L’objectif à ce stade est de donner une vue d’ensemble sans approfondir chaque expérience ; le détail viendra dans les modules suivants.
Astuce : un exercice de mise en correspondance (associer une expérience à un besoin métier) permet de vérifier la compréhension.
Gestion des capacités et compréhension du modèle de licences Fabric
La capacité (Capacity Units) est la puissance de calcul allouée à l’organisation. C’est elle qui détermine la vitesse de traitement des données.
Les différents types de licences sont : Fabric (capacité F), Power BI Pro, Power BI Premium Per User (PPU). La licence détermine ce que les utilisateurs peuvent faire.
Analogie utile : la capacité, c’est comme la taille du moteur d’une voiture – plus elle est grande, plus on peut traiter de données rapidement.
Astuce : ne pas se perdre dans les détails tarifaires. Se concentrer sur les différences fonctionnelles entre les niveaux.
Attribution des rôles et permissions dans les espaces de travail
Quatre rôles existent : Administrateur (Admin) qui gère les permissions, Membre (Member) qui peut partager le contenu, Contributeur (Contributor) qui peut modifier le contenu, Lecteur (Viewer) qui peut uniquement consulter.
Une démonstration concrète consiste à ajouter un participant comme « Viewer » dans un espace de travail pour observer ce qu’il voit et ne voit pas.
Le principe du moindre privilège s’applique : toujours attribuer le rôle minimal nécessaire.
Astuce : un schéma récapitulatif des rôles sous forme de tableau ou de pyramide facilite la mémorisation.
Organisation des ressources : lakehouses, warehouses, rapports et pipelines
Le lakehouse stocke les données brutes et transformées. Le warehouse permet les requêtes SQL. Les rapports permettent la visualisation. Les pipelines orchestrent les flux de données.
La création d’un lakehouse et d’un rapport dans l’espace de travail illustre bien cette organisation.
Astuce : l’analogie du classeur de bureau fonctionne bien – chaque espace de travail est un tiroir, et les ressources sont les dossiers à l’intérieur.
Présentation de OneLake comme lac de données unifié basé sur Azure Data Lake Storage
OneLake est le « OneDrive des données analytiques » (analogie officielle Microsoft). Chaque organisation dispose d’un seul OneLake, comme chaque utilisateur a un seul OneDrive.
OneLake élimine les silos de données : toutes les données sont stockées dans un emplacement unique et logique, accessible par toutes les expériences Fabric.
Un compte Azure n’est pas nécessaire pour utiliser OneLake dans Fabric.
Astuce : l’Explorateur de fichiers OneLake (téléchargeable) rend le concept tangible en affichant les données comme des fichiers classiques.
Compréhension du format Delta Lake et des avantages du stockage ouvert
Delta Lake est un format de fichier ouvert (open source) basé sur Parquet. Le mot clé est « ouvert » : les données ne sont pas enfermées dans un format propriétaire.
Les avantages clés pour un public débutant : gestion des versions des données (time travel : « on peut revenir en arrière si une erreur est commise »), fiabilité des transactions (ACID), et performance de lecture.
Astuce : ne pas plonger dans les détails techniques de Parquet ou ACID. Rester sur les bénéfices métier.
Connexion aux sources de données externes : bases de données, fichiers, API
Fabric propose plus de 200 connecteurs natifs. Les plus courants en entreprise sont : SQL Server, Excel, SharePoint, fichiers CSV.
La connexion à une source simple (fichier Excel sur OneDrive ou fichier CSV) constitue un bon premier exercice.
Il existe une différence entre les sources cloud (accès direct) et les sources locales (nécessitent une passerelle de données, traitée plus loin dans la formation).
Astuce : préparer à l’avance un fichier de données d’exemple que les participants pourront utiliser.
Dataflow Gen2 est un outil visuel (low-code) de transformation de données, basé sur Power Query. Les personnes qui connaissent Power Query dans Excel retrouveront un environnement familier.
Les opérations de transformation courantes incluent : filtrer des lignes, renommer des colonnes, fusionner des tables, ajouter des colonnes calculées.
Astuce : un exercice guidé de nettoyage de données avec Dataflow Gen2 sur un jeu de données simple (données de ventes par exemple) permet une bonne mise en pratique.
Création de rapports Power BI connectés aux données Fabric
Un rapport Power BI peut être créé directement depuis le portail Fabric en sélectionnant un lakehouse ou un modèle sémantique comme source.
Le mode Direct Lake permet aux rapports de lire directement les données du lakehouse sans passer par un import ou une requête DirectQuery classique, ce qui améliore les performances.
Astuce : la création d’un rapport simple (un graphique et un tableau) à partir des données chargées précédemment dans le lakehouse constitue un bon exercice pratique.
Utilisation des semantic models partagés dans Fabric
Un modèle sémantique (semantic model, anciennement « dataset ») est la couche de données structurées que les rapports utilisent. Plusieurs rapports peuvent partager le même modèle.
Le hub de données Fabric (OneLake data hub) permet de découvrir et de réutiliser un modèle sémantique existant.
Le bénéfice organisationnel clé : une seule source de vérité pour tous les rapports.
Structuration des jeux de données et gouvernance de Power BI Service
Les principes de gouvernance clés sont : centraliser les modèles sémantiques certifiés, éviter la prolifération de rapports redondants, utiliser les étiquettes de sensibilité (Microsoft Purview).
La certification d’un modèle sémantique permet aux utilisateurs d’identifier les sources approuvées par l’organisation.
Astuce : pour un public débutant, se concentrer sur le « pourquoi » de la gouvernance avant le « comment ». Un exemple concret de problème causé par l’absence de gouvernance ancre l’idée.
Le RLS restreint les données visibles par un utilisateur au niveau des lignes. Par exemple, un commercial ne voit que les ventes de sa région.
La configuration se fait dans Power BI Desktop : onglet Modélisation > Gérer les rôles > Créer un rôle avec un filtre DAX simple (par exemple [Région] = « France »).
La fonctionnalité « Afficher en tant que rôle » permet de tester le rôle créé directement dans Power BI Desktop.
Il existe deux approches : le RLS statique (rôles fixes avec des valeurs en dur) et le RLS dynamique (utilisant USERPRINCIPALNAME() pour adapter automatiquement le filtrage à chaque utilisateur connecté).
Après publication, l’assignation des utilisateurs aux rôles se fait dans le service Power BI, via les paramètres de sécurité du modèle sémantique.
Astuce : commencer par un RLS statique simple avant d’introduire le RLS dynamique. Un jeu de données avec plusieurs régions permet aux participants de pratiquer.
Le journal d’activité Power BI est accessible depuis le portail d’administration. Il trace les événements suivants : consultations de rapports, partages, exports, rafraîchissements.
L’audit répond à plusieurs enjeux : conformité réglementaire (RGPD), détection d’usages anormaux, optimisation de l’adoption.
Astuce : un exemple concret de journal d’activité où les participants identifient qui a consulté un rapport donné rend le sujet parlant.
Gestion avancée des droits d’accès et des rôles utilisateurs
Le modèle de permissions Fabric s’articule en trois niveaux : authentification Entra, accès à Fabric (espaces de travail et rôles), sécurité des données (RLS, OLS).
L’Object-Level Security (OLS) permet de masquer des colonnes ou des tables entières selon les rôles, en complément du RLS.
Astuce : pour un public débutant, rester en surface sur l’OLS. L’essentiel est de comprendre que la sécurité peut être granulaire.
Connexion à des sources de données complexes (SQL Server, ERP, CRM, API, Big Data, …)
Le catalogue complet des connecteurs Power BI et Fabric comprend plus de 200 connecteurs. Les plus demandés en entreprise sont : SQL Server, Oracle, SAP, Salesforce, Dynamics 365, API REST.
Une connexion à une base SQL Server (localement ou sur Azure) illustre bien le processus.
Trois modes de connexion existent : Import (les données sont copiées dans le modèle), DirectQuery (les requêtes sont envoyées à la source en temps réel), Direct Lake (spécifique à Fabric, lecture directe du lakehouse).
Astuce : pour un public débutant, simplifier en deux catégories – « les données sont copiées » (Import) vs « les données restent à la source » (DirectQuery/Direct Lake).
Mise en place des passerelles de données (Data Gateway) pour des mises à jour automatiques
La passerelle fait le pont entre les données locales (derrière un pare-feu) et le service cloud Power BI/Fabric. Sans elle, les données locales ne sont pas accessibles depuis le cloud.
Deux types de passerelles existent : standard (pour l’équipe, multi-utilisateurs, recommandée) et personnelle (pour un seul utilisateur, réservée à Power BI).
Le processus d’installation suit ces étapes : téléchargement de l’installeur, installation sur une machine du réseau local, enregistrement avec un compte Power BI, puis configuration des sources de données dans le service.
Les bonnes pratiques sont : installer la passerelle sur une machine dédiée (pas un poste personnel), créer un cluster pour la haute disponibilité, conserver la clé de récupération en lieu sûr.
Astuce : si l’installation d’une passerelle n’est pas possible en formation, des captures d’écran ou une vidéo de démonstration constituent une bonne alternative.
Planification des rafraîchissements et optimisations des temps de traitement
Le rafraîchissement planifié se configure dans les paramètres du modèle sémantique (service Power BI) : fréquence, créneaux horaires, fuseau horaire.
Le nombre maximal de rafraîchissements par jour dépend de la licence : 8 pour Pro, 48 pour Premium/Fabric.
Les techniques d’optimisation principales sont : réduire le volume de données importées, utiliser le rafraîchissement incrémentiel, optimiser les requêtes Power Query.
Astuce : la configuration d’un rafraîchissement planifié par les participants sur leur rapport de test, suivie de la consultation de l’historique de rafraîchissement, permet de concrétiser le sujet.