🔔

Webinar de présentation de nos formations le mercredi 1 février

Je m'inscris à l'événement

Data cleaning : 5 techniques pour nettoyer ses données efficacement

Vous êtes sur Excel et ouvrez votre base de données. Vous vouliez faire la moyenne d’un champ de données, mais voilà qu’Excel affiche #DIV/0! : les données ne sont pas au bon format. C’est un problème très fréquent lorsque les données sont brutes et n’ont pas fait l’objet d’un nettoyage préalable. Pourtant, un nettoyage des données rapide aurait permis de détecter cette anomalie (et bien d’autres que vous n’avez probablement pas encore identifiés). Ce nettoyage respecte un schéma précis que nous détaillerons dans cet article. Une fois bien réalisé, ce nettoyage vous fera gagner un temps considérable pour la phase d’analyse, et améliorera la fiabilité de vos données et résultats. Pour un data cleaning efficace, suivez le guide !

qu'est-ce que le data cleaning ?
Table des matières

Qu’est-ce que le data cleaning  ?

Définition

Le data cleaning ou nettoyage des données consiste à corriger les données afin d’en faciliter l’analyse et l’exploitation. Ce qu’on appelle aussi « data cleansing » comprend la mise au bon format de l’ensemble de données, l’identification et la suppression des valeurs aberrantes, le remplissage des données manquantes…

Les avantages du Data Cleaning

Le nettoyage des données est une étape cruciale d’un projet data — si ce n’est la plus importante. C’est souvent la première chose à faire lorsqu’on commence à exploiter des données.

Cette étape permet avant tout d’apprendre à connaître ses données brutes, en repérer les points d'intérêt, acquérir les premières intuitions sur l’utilisation future des données. C’est la base de toutes les analyses qui seront réalisées et sur lesquelles l’entreprise orientera sa prise de décision.

Les approches

différentes approches du data cleaning

Il existe différentes approches du Data Cleaning et la méthode de nettoyage peut s'adapter à tous les niveaux : du simple nettoyage sur Excel à base de ctrl+F au nettoyage plus complexe via des scripts en Python par exemple.

Dans le monde de l’entreprise, le nettoyage des données se fait de manière systématique, pour optimiser l'utilisation des données. C’est généralement au Data Analyst qu’incombe cette tâche.

Pour découvrir ce métier, vous pouvez vous former avec la formation Data Analyst de DataBird qui permet de démystifier la data au service du business. À l’issue de la formation, vous saurez mener un projet data de manière autonome et professionnelle.

Le traitement des données

Le traitement des données, aussi appelé le data processing, regroupe toutes les opérations qui sont effectuées sur les données lors d’un projet. Généralement, il suit les étapes suivantes :

  1. la collecte des données ;
  2. le data cleaning ;
  3. la première analyse des données ;
  4. le traitement des données (en général, c’est la construction d’un modèle, à base de machine learning) ;
  5. l’interprétation des sorties du traitement ;
  6. le stockage des données.

Pour bien assurer l’issue du projet (notamment la bonne analyse), l’étape de data cleaning doit être parfaitement réalisée.

Pourquoi avoir des données propres  ?

Le potentiel des données propres

Le potentiel des données propres réside dans l’aisance de leur utilisation. Les données de qualité augmentent l’efficacité, que ce soit dans le cadre du projet pour lequel elles ont été collectées ou bien pour de futurs projets.

Uniformiser les données issues de plusieurs sources permet de les traiter simultanément en les agrégeant. Les données nettoyées procurent un avantage concurrentiel : la productivité des employés traitant les données est décuplée lorsque celles-ci sont standardisées et propres.

Découvrir la formation Datavisualisation

Les étapes du nettoyage des données

La procédure à suivre lorsque l’on nettoie des données est standard, mais elle s'adapte à tous les types de données.

  1. Identifier les données potentiellement utiles

À l’ère du Big Data, la mode est à la collecte de données massive. Pourtant, il est très chronophage de traiter des tables de données comportant de nombreux attributs différents.

Réduire les champs de données sélectionnés permet de réduire le temps d'exécution du data cleaning et de réduire les coûts de stockage. Pour cela, on peut sélectionner les données pertinentes grâce à des requêtes SQL.

  1. Importer les données

Une fois les données identifiées, on les importe dans l'environnement dans lequel elles vont être nettoyées.

  1. Supprimer les doublons

Il se peut que lors de la collecte des données, certaines lignes apparaissent deux ou plusieurs fois, surtout lorsque l’on croise différentes sources. Les identifier et les supprimer dès le début permet de réduire le temps d’exécution de toutes les étapes du data cleaning.

  1. Vérifier les types de données

Vérifier que chaque colonne de votre base ne contient qu’un unique type de données permet d’identifier rapidement les valeurs aberrantes et les sources de problème.

  1. Identifier les problèmes potentiels (et les résoudre !)

Cette partie du processus de nettoyage de données est la plus personnalisable et consiste à s’assurer de l’intégrité des données. Quelques exemples :

  • mettre toutes les données dans la même unité (tout en Euros ou Dollars) ;
  • s’assurer que les mêmes codes sont respectés dans toute la base (une seule entrée représente le Royaume-Uni et non deux [UK et GB]) ;
  • détecter les valeurs aberrantes (un client dont la date de naissance serait en 1784) et les données incorrectes.

Si certains problèmes sont corrigeables dès l’étape de collecte des données, c’est l’idéal afin d’éviter de répéter ce nettoyage en cas de mise à jour des données.

  1. Traiter les valeurs manquantes

Les valeurs manquantes peuvent se résoudre par deux stratégies : supprimer la ligne ou la compléter de la manière la plus pertinente. L’objectif est d’obtenir un dataset qui n’a aucune lacune.

  1. Standardiser le processus

Afin d’assurer la cohérence et l’intégrité des données, il faut que le processus soit standardisé pour être reproduit. Selon la fréquence de collecte de données, il est souvent préférable d’automatiser le processus.

  1. Examiner les résultats

Maintenant que les données sont prêtes, vous pouvez les utiliser pour le reste de votre projet ! Il peut être judicieux de réfléchir à des métriques ou des contraintes d’intégrités qui vérifient le bon déroulement du Data Cleaning.

Discuter de mon projet avec un conseiller pédagogique

Quelques automatismes à adopter pour nettoyer ses données

automatismes pour nettoyer ses données

Vérification orthographique

Si vous travaillez avec des données textuelles, les erreurs d’orthographe sont source d’erreurs d’analyse, il est donc essentiel de les corriger. Il faut aussi penser à ajouter au dictionnaire les noms propres ou le vocabulaire métier employé.

Nettoyer les caractères non reconnus

Certains caractères ne sont pas reconnus par tous les appareils. Cela peut être le cas des émojis ou de certains symboles. Lorsque vous étudiez des données textuelles, ne conservez que les caractères que vous pouvez traiter.

Uniformisation des données temporelles

Les données de dates ou d’heures doivent avoir un format particulier pour être reconnues par l’ordinateur. Ces formats sont facilement erronés, comme le fait de séparer les chiffres de la date par des tirets au lieu de slashs.  

Uniformisation des données chiffrées

Les données chiffrées peuvent être stockées au format texte (chaîne de caractères) ou en tant que valeurs numériques. Lorsqu’elles sont au format texte, les convertir en valeurs numériques est judicieux. Cela évite les erreurs liées au formatage comme la confusion entre les points et les virgules pour séparer les décimales des unités.

Les 5 techniques infaillibles pour nettoyer ses données efficacement

1. Le parsing

Le parsing, ou analyse syntaxique en français, désigne l'utilisation de la syntaxe d’une chaîne de caractères pour en extraire des informations. On utilise pour cela les expressions régulières (ou regex).

2. Transformation de données

Cette méthode consiste à appliquer un format optimal aux données. Par exemple, à partir d’un champ de données qui contient des dates, on extrait uniquement les années si le reste nous est inutile.

3. Renforcement des contraintes d’intégrité

Les contraintes d’intégrités déterminées précédemment ne sont parfois pas optimales. En fonction de l’évolution des données collectées, pour améliorer la qualité globale des données, il faut modifier les contraintes d’intégrité.

4. Méthode statistique

L’utilisation des méthodes statistiques dans le contexte du Data Cleaning permet de corriger des erreurs en étudiant la répartition des données, notamment les paires de données les plus similaires. Ces méthodes sont aussi utiles dans le remplissage des valeurs manquantes.

5. Crowdsourcing

Le crowdsourcing permet d’utiliser des données externes pour améliorer la qualité des données que l’on doit nettoyer. Cela permet de corriger des erreurs automatiquement dans les données collectées.

Les solutions pour le nettoyage de données

KATARA

Katara est une solution qui repose sur le crowdsourcing pour corriger les données. Elle dispose d’une importante base de connaissances constituée humainement, qui permet d’utiliser des approches probabilistes pour corriger les bases de données.

IntelliClean

Intelliclean propose une solution en 3 étapes : pré-processing, processing et vérification par l’humain. Lors du processing, les données sont nettoyées en utilisant des règles prédéterminées. IntelliClean met l’accent sur l’utilisation des doublons pour optimiser le nettoyage.

Potter’s wheel

Potter’s wheel permet de nettoyer les données sans coder grâce à une interface interactive qui permet à l’utilisateur de déterminer des transformations à appliquer à ses données. Potter’s wheel est très axé sur le parsing.

Les outils de nettoyage de données

outils de nettoyage de données

IBM Infosphere Quality Stage

IBM Infosphère Quality Stage est une solution commercialisée par IBM conçue pour traiter les gros volumes de données. Grâce à cette solution, vous pouvez explorer les données et vous assurer de leur qualité grâce aux 200 règles de qualité des données. Cet outil peut être déployé sur le cloud mais aussi en interne.

Winpure Clean & Match

La solution Winpure Clean & Match est un logiciel qui s’installe en local et qui permet de nettoyer les données depuis son interface. Il contient des outils qui, en plus de nettoyer les données, permettent de les compléter, les corriger, les standardiser et les transformer.

Chaque étape du data processing peut être sauvegardée pour être ré-appliquée sur d’autres bases de données.

TIBCO Clarity

Contrairement au logiciel précédent, TIBCO Clarity est hébergé en ligne (logiciel en tant que service Saas). Il permet de nettoyer des données sur le cloud. Il lit des dizaines de formats de données et permet de passer du nettoyage au traitement, avec des fonctionnalités d'échantillonnage et de profilage.

Ces solutions sont souvent très puissantes, mais elles sont payantes.

Conclusion

En somme, il est presque impossible de travailler sur des données sans passer par l’étape de Data Cleaning.

Puisque la quasi-totalité des secteurs étudient aujourd’hui des bases de données, le Data Cleaning est l’une des cordes les plus importantes que les Data Analysts doivent avoir à leur arc !

En savoir plus sur la formation Datavisualisation
Partagez cet article :
linkedIn iconfacebook iconInstagram icon
Tu souhaites te former à la data ? 
équipe DataBird formation data analyse

Tu souhaites devenir data analyst

Notre formation intensive en présentiel ou en distanciel en data analyse est ouverte à tous types de profils. Tu es intéressé pour rejoindre notre communauté ? Postule pour en savoir plus.

croix
Webinar de présentation de nos formations le mercredi 1 février
Je m'inscris à l'événement
// Highlight JS