Webinar de présentation de nos formations le mercredi 1 février
J-9 / Je m'inscris à l'événement ➜Je m'inscris à l'événementVous êtes sur Excel et ouvrez votre base de données. Vous vouliez faire la moyenne d’un champ de données, mais voilà qu’Excel affiche #DIV/0! : les données ne sont pas au bon format. C’est un problème très fréquent lorsque les données sont brutes et n’ont pas fait l’objet d’un nettoyage préalable. Pourtant, un nettoyage des données rapide aurait permis de détecter cette anomalie (et bien d’autres que vous n’avez probablement pas encore identifiés). Ce nettoyage respecte un schéma précis que nous détaillerons dans cet article. Une fois bien réalisé, ce nettoyage vous fera gagner un temps considérable pour la phase d’analyse, et améliorera la fiabilité de vos données et résultats. Pour un data cleaning efficace, suivez le guide !
Le data cleaning ou nettoyage des données consiste à corriger les données afin d’en faciliter l’analyse et l’exploitation. Ce qu’on appelle aussi « data cleansing » comprend la mise au bon format de l’ensemble de données, l’identification et la suppression des valeurs aberrantes, le remplissage des données manquantes…
Le nettoyage des données est une étape cruciale d’un projet data — si ce n’est la plus importante. C’est souvent la première chose à faire lorsqu’on commence à exploiter des données.
Cette étape permet avant tout d’apprendre à connaître ses données brutes, en repérer les points d'intérêt, acquérir les premières intuitions sur l’utilisation future des données. C’est la base de toutes les analyses qui seront réalisées et sur lesquelles l’entreprise orientera sa prise de décision.
Il existe différentes approches du Data Cleaning et la méthode de nettoyage peut s'adapter à tous les niveaux : du simple nettoyage sur Excel à base de ctrl+F au nettoyage plus complexe via des scripts en Python par exemple.
Dans le monde de l’entreprise, le nettoyage des données se fait de manière systématique, pour optimiser l'utilisation des données. C’est généralement au Data Analyst qu’incombe cette tâche.
Pour découvrir ce métier, vous pouvez vous former avec la formation Data Analyst de DataBird qui permet de démystifier la data au service du business. À l’issue de la formation, vous saurez mener un projet data de manière autonome et professionnelle.
Le traitement des données, aussi appelé le data processing, regroupe toutes les opérations qui sont effectuées sur les données lors d’un projet. Généralement, il suit les étapes suivantes :
Pour bien assurer l’issue du projet (notamment la bonne analyse), l’étape de data cleaning doit être parfaitement réalisée.
Le potentiel des données propres réside dans l’aisance de leur utilisation. Les données de qualité augmentent l’efficacité, que ce soit dans le cadre du projet pour lequel elles ont été collectées ou bien pour de futurs projets.
Uniformiser les données issues de plusieurs sources permet de les traiter simultanément en les agrégeant. Les données nettoyées procurent un avantage concurrentiel : la productivité des employés traitant les données est décuplée lorsque celles-ci sont standardisées et propres.
La procédure à suivre lorsque l’on nettoie des données est standard, mais elle s'adapte à tous les types de données.
À l’ère du Big Data, la mode est à la collecte de données massive. Pourtant, il est très chronophage de traiter des tables de données comportant de nombreux attributs différents.
Réduire les champs de données sélectionnés permet de réduire le temps d'exécution du data cleaning et de réduire les coûts de stockage. Pour cela, on peut sélectionner les données pertinentes grâce à des requêtes SQL.
Une fois les données identifiées, on les importe dans l'environnement dans lequel elles vont être nettoyées.
Il se peut que lors de la collecte des données, certaines lignes apparaissent deux ou plusieurs fois, surtout lorsque l’on croise différentes sources. Les identifier et les supprimer dès le début permet de réduire le temps d’exécution de toutes les étapes du data cleaning.
Vérifier que chaque colonne de votre base ne contient qu’un unique type de données permet d’identifier rapidement les valeurs aberrantes et les sources de problème.
Cette partie du processus de nettoyage de données est la plus personnalisable et consiste à s’assurer de l’intégrité des données. Quelques exemples :
Si certains problèmes sont corrigeables dès l’étape de collecte des données, c’est l’idéal afin d’éviter de répéter ce nettoyage en cas de mise à jour des données.
Les valeurs manquantes peuvent se résoudre par deux stratégies : supprimer la ligne ou la compléter de la manière la plus pertinente. L’objectif est d’obtenir un dataset qui n’a aucune lacune.
Afin d’assurer la cohérence et l’intégrité des données, il faut que le processus soit standardisé pour être reproduit. Selon la fréquence de collecte de données, il est souvent préférable d’automatiser le processus.
Maintenant que les données sont prêtes, vous pouvez les utiliser pour le reste de votre projet ! Il peut être judicieux de réfléchir à des métriques ou des contraintes d’intégrités qui vérifient le bon déroulement du Data Cleaning.
Si vous travaillez avec des données textuelles, les erreurs d’orthographe sont source d’erreurs d’analyse, il est donc essentiel de les corriger. Il faut aussi penser à ajouter au dictionnaire les noms propres ou le vocabulaire métier employé.
Certains caractères ne sont pas reconnus par tous les appareils. Cela peut être le cas des émojis ou de certains symboles. Lorsque vous étudiez des données textuelles, ne conservez que les caractères que vous pouvez traiter.
Les données de dates ou d’heures doivent avoir un format particulier pour être reconnues par l’ordinateur. Ces formats sont facilement erronés, comme le fait de séparer les chiffres de la date par des tirets au lieu de slashs.
Les données chiffrées peuvent être stockées au format texte (chaîne de caractères) ou en tant que valeurs numériques. Lorsqu’elles sont au format texte, les convertir en valeurs numériques est judicieux. Cela évite les erreurs liées au formatage comme la confusion entre les points et les virgules pour séparer les décimales des unités.
Le parsing, ou analyse syntaxique en français, désigne l'utilisation de la syntaxe d’une chaîne de caractères pour en extraire des informations. On utilise pour cela les expressions régulières (ou regex).
Cette méthode consiste à appliquer un format optimal aux données. Par exemple, à partir d’un champ de données qui contient des dates, on extrait uniquement les années si le reste nous est inutile.
Les contraintes d’intégrités déterminées précédemment ne sont parfois pas optimales. En fonction de l’évolution des données collectées, pour améliorer la qualité globale des données, il faut modifier les contraintes d’intégrité.
L’utilisation des méthodes statistiques dans le contexte du Data Cleaning permet de corriger des erreurs en étudiant la répartition des données, notamment les paires de données les plus similaires. Ces méthodes sont aussi utiles dans le remplissage des valeurs manquantes.
Le crowdsourcing permet d’utiliser des données externes pour améliorer la qualité des données que l’on doit nettoyer. Cela permet de corriger des erreurs automatiquement dans les données collectées.
Katara est une solution qui repose sur le crowdsourcing pour corriger les données. Elle dispose d’une importante base de connaissances constituée humainement, qui permet d’utiliser des approches probabilistes pour corriger les bases de données.
Intelliclean propose une solution en 3 étapes : pré-processing, processing et vérification par l’humain. Lors du processing, les données sont nettoyées en utilisant des règles prédéterminées. IntelliClean met l’accent sur l’utilisation des doublons pour optimiser le nettoyage.
Potter’s wheel permet de nettoyer les données sans coder grâce à une interface interactive qui permet à l’utilisateur de déterminer des transformations à appliquer à ses données. Potter’s wheel est très axé sur le parsing.
IBM Infosphère Quality Stage est une solution commercialisée par IBM conçue pour traiter les gros volumes de données. Grâce à cette solution, vous pouvez explorer les données et vous assurer de leur qualité grâce aux 200 règles de qualité des données. Cet outil peut être déployé sur le cloud mais aussi en interne.
La solution Winpure Clean & Match est un logiciel qui s’installe en local et qui permet de nettoyer les données depuis son interface. Il contient des outils qui, en plus de nettoyer les données, permettent de les compléter, les corriger, les standardiser et les transformer.
Chaque étape du data processing peut être sauvegardée pour être ré-appliquée sur d’autres bases de données.
Contrairement au logiciel précédent, TIBCO Clarity est hébergé en ligne (logiciel en tant que service Saas). Il permet de nettoyer des données sur le cloud. Il lit des dizaines de formats de données et permet de passer du nettoyage au traitement, avec des fonctionnalités d'échantillonnage et de profilage.
Ces solutions sont souvent très puissantes, mais elles sont payantes.
En somme, il est presque impossible de travailler sur des données sans passer par l’étape de Data Cleaning.
Puisque la quasi-totalité des secteurs étudient aujourd’hui des bases de données, le Data Cleaning est l’une des cordes les plus importantes que les Data Analysts doivent avoir à leur arc !
Notre formation intensive en présentiel ou en distanciel en data analyse est ouverte à tous types de profils. Tu es intéressé pour rejoindre notre communauté ? Postule pour en savoir plus.