Nettoyage de données dans Power BI : Faire son Data Cleaning directement dans Power Bi pour effectuer des analyses fiables
Découvrez les meilleures pratiques pour nettoyer vos données dans Power BI. Apprenez à optimiser vos jeux de données pour des analyses plus précises et efficaces.


Dans le monde de l’analyse de données, la qualité des données est primordiale pour obtenir des résultats précis et fiables.
Le nettoyage de données est une étape cruciale dans ce processus, et Power BI offre une gamme d’outils puissants pour vous aider à nettoyer vos jeux de données.
Dans cet article, nous allons explorer les meilleures pratiques et techniques pour le nettoyage de données dans Power BI, afin d’optimiser vos analyses.
Pourquoi le nettoyage de données est crucial dans Power BI
Le nettoyage de données consiste à identifier et corriger les erreurs et incohérences dans un jeu de données.
Cela inclut la gestion des valeurs manquantes, la correction des erreurs de format et l’élimination des données aberrantes.
Un nettoyage de données efficace permet d’améliorer la précision des analyses. Des données propres conduisent à des conclusions plus fiables.
Ensuite, cela optimise la performance des rapports : moins de données incorrectes signifie des rapports plus rapides et plus efficaces.
Enfin, cela facilite la prise de décision. Des analyses basées sur des données de haute qualité permettent des décisions plus éclairées.
Étapes essentielles du nettoyage de données Power BI
Identification des données aberrantes
Les données aberrantes peuvent fausser les résultats de vos analyses.
Pour les identifier dans Power BI, vous pouvez utiliser des visualisations comme les graphiques de dispersion et les histogrammes.
Ces outils vous aident à repérer les valeurs qui dévient significativement de la norme.
Exemple concret
Imaginons que vous ayez un jeu de données de ventes contenant des valeurs de prix de produits. Si vous trouvez une valeur de prix beaucoup plus élevée ou beaucoup plus basse que les autres, il est crucial de vérifier et de corriger cette anomalie.
Utilisons le tableau suivant :

Si une valeur de Revenue était de 100 000 pour une seule unité de produit à 10, cela serait une aberration. Vous pouvez utiliser un graphique de dispersion pour visualiser ces écarts.
J’ai, par exemple, affecté un revenu de 100 000 sur la 3ème ligne de mon tableau.
Voici à quoi ressembleraient deux graphiques :

On voit bien que le revenu pour le produit avec un prix unitaire de 10 a un revenu aberrant.
En revenant aux valeurs annoncées sur le tableau ci dessus, on voit que nos graphiques ne présentent plus de valeurs aberrantes :

Gestion des valeurs manquantes
Les valeurs manquantes peuvent causer des erreurs dans vos analyses. Dans Power BI, vous pouvez utiliser Power Query pour identifier et gérer ces valeurs.
Plusieurs stratégies peuvent être employées, comme remplacer les valeurs manquantes par une moyenne, ce qui est utile pour les données numériques, ou supprimer les lignes ou colonnes contenant des valeurs manquantes si la proportion de données manquantes est élevée.
Exemple concret
Supposons que dans le tableau ci-dessus, la colonne UnitPrice pour la date 2023-01-03 soit manquante.
Vous pourriez soit la remplacer par la moyenne des prix unitaires des autres lignes, soit choisir de supprimer cette ligne si cela n'affecte pas significativement votre analyse.
Correction des erreurs de format
Les erreurs de format, comme les dates mal formatées ou les types de données incorrects, peuvent également poser un problème.
Power BI permet de transformer et de corriger ces formats via Power Query.
Exemple concret
Si la date dans le tableau était au format "2023/01/01" et que votre analyse nécessite le format "01-01-2023", vous pouvez utiliser Power Query pour transformer ces dates automatiquement.
Si, par exemple, je mets ma colonne ‘date’ au format décimal, Power Query va déterminer par lui-même qu’une erreur est présente dans cette colonne :

Je vais donc, en cliquant sur la partie supérieure gauche de mon en-tête, et choisir le format adapté ‘Date’.

Outils intégrés de Power BI pour le nettoyage de données
Power Query
Nous l’avons vu juste avant, mais Power Query permet de nettoyer vos données directement dans Power Bi.
Power Query est l’outil principal de Power BI pour le nettoyage et la transformation des données.
Il offre une interface intuitive pour effectuer diverses opérations de nettoyage, comme le filtrage des lignes, la suppression des doublons, et la transformation des colonnes.
Fonctionnalités clés
Filtres avancés
Les filtres avancés permettent de restreindre les données visibles et traitées en appliquant des conditions spécifiques.
- Accédez à Power Query : Ouvrez Power BI Desktop, allez dans l'onglet "Accueil" et cliquez sur "Transformer les données" pour ouvrir Power Query Editor.
- Sélectionnez votre tableau : Cliquez sur le nom de votre tableau dans le volet de navigation à gauche.
- Appliquez un filtre :some text
- Filtrer les dates : Cliquez sur le bouton de filtre dans l’en-tête de la colonne Date. Vous pouvez choisir d'afficher uniquement les données d'une certaine période.

- Filtrer par texte : Par exemple, pour la colonne Region, cliquez sur le bouton de filtre et cochez/décochez les régions que vous souhaitez afficher.
- Filtrer par condition : Vous pouvez choisir "Filtre de texte" ou "Filtre de nombre" pour appliquer des conditions plus complexes comme "supérieur à", "inférieur à", ou "contient".
Exemple : Pour filtrer les lignes où Revenue est supérieur à 3000, cliquez sur le bouton de filtre de la colonne Revenue, puis "Filtre de nombre" et sélectionnez "Est supérieur à" et entrez 3000.

Groupement
Le groupement permet de résumer les données en agrégant des colonnes selon des catégories spécifiques.
- Accédez à Power Query : Ouvrez Power BI Desktop, allez dans l'onglet "Accueil" et cliquez sur "Transformer les données" pour ouvrir Power Query Editor.
- Sélectionnez votre tableau : Cliquez sur le nom de votre tableau dans le volet de navigation à gauche.
- Groupement de données :
- Sélectionnez la colonne par laquelle vous voulez grouper les données, par exemple Region.
- Allez dans l’onglet "Transformer" puis cliquez sur "Grouper par"
- Une boîte de dialogue s’ouvre. Configurez le groupement en sélectionnant la colonne Region et choisissez l’opération d'agrégation (comme Somme, Moyenne, etc.) pour les autres colonnes.

- Exemple : Groupez par Region et calculez la somme de Revenue pour chaque région. Notre tableau deviendra ainsi regroupé :

Fusion et fractionnement
Ces opérations permettent de fusionner plusieurs colonnes en une seule ou de diviser une colonne en plusieurs colonnes.
- Accédez à Power Query : Ouvrez Power BI Desktop, allez dans l'onglet "Accueil" et cliquez sur "Transformer les données" pour ouvrir Power Query Editor.
- Sélectionnez votre tableau : Cliquez sur le nom de votre tableau dans le volet de navigation à gauche.
- Fusionner des colonnes :
- Sélectionnez les colonnes que vous souhaitez fusionner, par exemple Date et Region.
- Cliquez avec le bouton droit et sélectionnez "Fusionner les colonnes".
- Choisissez un séparateur (comme un espace ou une virgule) et donnez un nom à la nouvelle colonne fusionnée.

Exemple : Fusionnez Date et Region avec une virgule comme séparateur. Vous verrez apparaître une nouvelle colonne à droite.

4. Fractionner des colonnes :
- Sélectionnez la colonne que vous souhaitez fractionner, par exemple une colonne FullName qui contient à la fois le prénom et le nom.
- Cliquez avec le bouton droit et sélectionnez "Fractionner la colonne" > "Par délimiteur".
- Choisissez le délimiteur (comme un espace) et spécifiez si vous souhaitez fractionner à chaque occurrence ou à une position spécifique.
Exemple : Fractionnez FullName en FirstName et LastName :
FullName FirstName LastName
John Doe John Doe
Jane Smith Jane Smith
Utiliser DAX pour nettoyer des données dans Power Bi
DAX (Data Analysis Expressions) est un langage de formule utilisé dans Power BI pour créer des calculs personnalisés.
Bien que principalement utilisé pour les calculs, DAX peut également aider à nettoyer les données en créant des colonnes calculées et des mesures qui corrigent les anomalies.
Exemple concret d’utilisation de DAX
Vous pouvez utiliser DAX pour créer une mesure qui remplace toutes les valeurs nulles d’une colonne par la moyenne des valeurs de cette colonne.
Pour écrire cette formule, il faut faire un clic droit sur ma table Ventes, puis créer une nouvelle mesure.
Dans la barre de formule, entrez la formule suivante pour créer une mesure qui remplace les valeurs nulles par la moyenne des valeurs de la colonne UnitPrice.

Ici, comme aucune valeur de ma colonne UnitPrice est nulle, ma nouvelle colonne créée est égale à la colonne UnitPrice.

Techniques avancées de nettoyage de données dans Power BI
Pour les utilisateurs avancés, Power BI propose des techniques de nettoyage plus sophistiquées, comme les scripts R et Python, qui peuvent être intégrés dans Power BI pour des opérations de nettoyage spécifiques.
Exemple concret
Nous allons pouvoir utiliser un script Python pour appliquer un algorithme de détection de valeurs aberrantes sur un jeu de données volumineux.
Pour utiliser un script python dans power bi, il faut d’abord s’assurer que python est bien installé sur votre machine.
Utilisez pip pour installer pandas et numpy si elles ne sont pas déjà installées, via votre terminal de votre machine : pip install pandas numpy.
Dans Power Query, il vous suffira d’ajouter une nouvelle source, et de choisir ‘Script Python’.

Pour répondre à l’exemple, vous pourrez copier ce script qui détecte les valeurs aberrantes en utilisant l'écart interquartile (IQR) :

Une nouvelle colonne Outlier est ajoutée au DataFrame pour indiquer si une ligne est une valeur aberrante (Yes) ou non (No).
Comment automatiser mon processus de nettoyage de données sur Power Bi ?
Power BI permet d’automatiser le processus de nettoyage de données en utilisant des flux de données et des pipelines de données. Cela garantit que les nouvelles données ajoutées à vos jeux de données sont automatiquement nettoyées selon les règles définies.
Exemple concret d’automatisation
Créer un flux de données dans Power BI qui applique automatiquement des transformations prédéfinies chaque fois qu’un nouveau fichier de données est importé.
Cette fonctionnalité est cependant disponible uniquement sur Power BI Services.
Comment maintenir la qualité des données que j’importe dans Power Bi ? L’importance d’une Data Governance
La documentation est essentielle : documentez toutes les transformations et nettoyages effectués pour assurer la traçabilité.
Mettez en place des vérifications régulières pour identifier et corriger les erreurs dès qu’elles apparaissent.
Assurez-vous que les utilisateurs de Power BI sont formés aux meilleures pratiques de nettoyage de données.
Les derniers articles sur ce sujet





