Comment utiliser la puissance de ChatGPT en tant que Data Analyst en 2024 ?
Dans cet article on récapitule comment un data analyst peut se servir de ChatGPT pour analyser des données et gagner un du temps avec quelques tips.
Depuis fin 2022, on n’entend plus parler que de ChatGPT. En tant que Data Analyst, on a l’obligation de prêter attention aux opportunités que cela représente pour notre métier et le secteur de la Data en général.
C’est la grande innovation de l’année, même de la décennie si on écoute certains experts de la Tech. Sam Altman, Bill Gates, et encore Xavier Niel déclarent que le lancement de ChatGPT va métamorphoser nos modes de vie et nos métiers dans la data.
Et ça à déjà commencé.
Chaque semaine, ce chatbot intelligent réalise de nouvelles prouesses, toujours plus techniques et toujours plus complexes. Comme :
- La création d’un jeu vidéo ;
- La traduction d’un texte anglais en français sans faire de fautes ;
- La rédaction d’un mémoire pour ses études
C’est assez bluffant, rien ne semble l’arrêter.
Cette technologie dépasse celle des chatbots traditionnels, principalement utilisés dans les services marketing et support client des entreprises pour interagir avec les particuliers.
ChatGPT, lui, voit plus grand et va plus loin. Il s’attaque à des tâches complexes, auparavant inaccessibles par les chatbots. Des tâches autrefois réservées aux esprits créatifs et possédant des compétences techniques élevées. Comme par exemple nettoyer de la data.
En quelques secondes, il est capable de créer des livrables de haute qualité.
Et le plus impressionnant dans tout ça ?
Il le fait pour n’importe quel domaine d’activité : RH, finance, gaming, marketing, aéronautique…
ChatGPT apporte sa valeur ajoutée dans tous les métiers de notre société.
Y compris dans l’univers de la Data.
Pour nous, les Data analysts, il va nous permettre de gagner un temps précieux dans nos activités quotidiennes.
Mais comment en tirer parti ?
Comment utiliser ChatGPT ou un autre LLM dans la data analysis ?
Quels sont les cas d’usages possibles du modèle d' OpenAI ?
C’est ce que nous allons voir dans cet article.
Les missions du Data analyst
Avant de vous parler des bénéfices de ChatGPT pour le métier de Data analyst, il est important de comprendre les missions qui lui sont attribuées au quotidien. D’avoir une vue d’ensemble sur les activités susceptibles d’être impactées par ce chatbot ultra-puissant.
Ci-dessous, la liste des missions professionnelles d’un Data analyst.
Collecter, nettoyer et stocker de la Data
Avant d’analyser des données, il faut déjà en disposer ! (Et surtout, qu’elles soient de bonne qualité).
Concrètement, cela veut dire que le Data analyst doit :
- Identifier les sources de données (sites web, bases de données internes, fichiers Excel…)
- Extraire les données à l’aide de requêtes SQL, scripts de programmation…
- Nettoyer les données en éliminant les anomalies et en comblant les lacunes
- Transformer les données pour les rendre compatibles avec l’analyse prévue (normalisation des formats, la conversion des unités…)
Cette multitude d’actions à réaliser explique pourquoi cette étape nécessite autant de temps.
Data Analysis : Analyser la donnée pour mieux la comprendre
C’est bon, le Data analyst dispose de données de qualité, il est désormais temps de les analyser.
Pour ce faire, cet expert de la Data va :
- Explorer les données en réalisant des statistiques descriptives, des visualisations graphiques etc.
- Réaliser des analyses statistiques (calculer les moyennes, les écarts-types, les corrélations…).
Ces activités demandent une expertise Data pour maîtriser les différents types d’analyse.
Pour acquérir cette expertise Data, vous pouvez suivre une formation data qui vous donnera les clés du secteur de la data, et vous aidera à mieux le comprendre.
{{banniere-article}}
Présenter visuellement la Data
À ce stade, le Data analyst détient les résultats de ses recherches. Il a identifié des tendances.
Maintenant, il faut les rendre lisibles par les autres parties prenantes du projet.
Cela consiste à :
- Sélectionner les outils de Datavisualisation (Tableau, PowerBI…).
- Définir les types de graphiques à produire (histogrammes, diagrammes à barres, graphiques linéaires, diagrammes circulaires…).
- Préparer les données pour les rendre compatibles avec les exigences graphiques.
- Créer des visualisations graphiques.
- Réviser et itérer en examinant les visualisations créées et en vérifiant leur cohérence avec les résultats obtenus dans la phase d’analyse.
- Intégrer les données dans les rapports ou les tableaux de bord.
Selon les objectifs de l’analyse et le niveau de maturité des parties prenantes sur le sujet, cette activité peut-être plus ou moins difficile à réaliser.
Communiquer et présenter la donnée pour faire de la Business Intelligence
Avoir de jolis visuels pour traduire les résultats c’est bien, savoir les commenter de manière claire et précise c’est encore mieux.
Pour sa dernière mission, le Data analyst devra donner vie à sa présentation visuelle, en la commentant à l’oral.
Pour cela, il devra :
- Expliquer les méthodes utilisées et le processus de son analyse
- Présenter les conclusions retenues suite à l’analyse
- Délivrer ses recommandations auprès des clients de l’entreprise
- Répondre aux questions des parties prenantes du projet
La qualité de sa prestation orale dépendra principalement de la clarté de ses propos vis-à -vis de ses interlocuteurs. Le Data analyst devra faire preuve d’adaptabilité.
S'appuyer sur ChatGPT pour la Data Analysis
Dans les missions professionnelles que nous venons de citer, certaines tâches à réaliser sont chronophages. Comme par exemple le nettoyage des données.
Dans certaines entreprises, les volumes de données à traiter sont conséquents. Et pour ne rien arranger, proviennent de diverses sources, sont de variétés différentes…
Ces facteurs ne facilitent pas la mission du Data analyst.
Pour y arriver à bout, les professionnels Data doivent y consacrer de nombreuses heures.
Il leur faut :
- Identifier et traiter les valeurs manquantes ;
- Gérer des valeurs aberrantes ;
- Normaliser les données ;
- Détecter et résoudre les doublons ;
- Etc.
Bref, nettoyer des données demande du temps.
En plus, c’est une tâche qui ne demande pas une grande expertise en Data analysis pour être réalisée. Avec une compétence de base en la matière, un Data analyst débutant peut tout à fait en venir à bout.
C’est un peu dommage de mobiliser, pendant un long moment, un expert Data pour ce type d’activité.
Pendant que le Data analyst nettoie des données, il ne réalise pas de stratégies poussées.
Utiliser ChatGPT en tant que Data Analyst
Soyons honnêtes, même si on aime notre métier, il y a toujours des tâches que nous aimerions délaisser. Comme celle que nous venons de citer, le nettoyage des données.
Il n’y a pas de honte à l’avouer, parfois on préfère se focaliser sur des tâches plus créatives, nécessitant plus de réflexion… Mais bon, il faut bien que quelqu’un fasse le travail demandé.
Heureusement pour nous, l’arrivée de ChatGPT et même d'IA alternative à ChatGPT change le fonctionnement de nombreux métiers. C’est le cas également pour le métier de Data analyst.
Avec ce chatbot intelligent, il est possible de lui déléguer certaines tâches de Data analyst.
À priori, cela fonctionne. À tel point que de plus en plus de professionnels de la Data déclarent leur amour à ChatGPT sur LinkedIn :
Comment ces professionnels utilisent-ils ChatGPT ?
Quels bénéfices en tirent-ils ?
Nous allons tout de suite le découvrir.
Nettoyer les données collectées avec ChatGPT
On vient de le voir, nettoyer des données peut prendre du temps. Aussi, c’est rarement une activité très stimulante intellectuellement.
En plus, c’est une tâche qui risque de s’intensifier dans les prochaines années, avec l’explosion des volumes et des sources des données, il faudra en nettoyer davantage.
D’après l’étude menée par l’institut Enterprise Strategy Group, les volumes de données doubleraient tous les deux ans.
Il devient donc stratégique de trouver un moyen pour automatiser une partie de cette activité.
Avec ChatGPT, cette activité peut être partiellement (ou totalement) prise en charge.
Adrien, un growth marketer, nous l’explique dans un tuto qu’il a réalisé.
https://www.youtube.com/watch?v=PUq2fvYSbqc
Impressionnant n’est ce pas ? Adrien nous le montre, ChatGPT peut nous faire économiser un temps précieux.
Si vous n’avez pas le temps de regarder la vidéo, voici un résumé de ce qu’à fait Adrien juste en dessous.
Exemple de nettoyage de données, de manipulation de données avec ChatGPT
Contexte
Adrien souhaite récupérer les adresses e-mails des clubs de sport pour lancer une campagne de cold e-mailings.
Pour gagner du temps, il souhaite utiliser l’intelligence artificielle pour nettoyer sa base de données et extraire les e-mails professionnels.
Voici en quelques étapes, comment il a procédé :
- Utilisation l'extension Cargo pour intégrer ChatGPT dans son fichier Google Sheet
- Récupérer une base de données sur sa cible (les clubs sportifs)
- Écriture d’un prompt sur Cargo pour nettoyer et récupérer les adresses e-mails
Écriture du prompt ChatGPT
Isole l’adresse mail qui se trouve dans la colonne (numéro de la colonne).
Je veux que tu gardes uniquement l’adresse e-mail, sans bullets et sans puces, etc.
(Traduire le prompt en anglais pour gagner en pertinence).
Isolate the email address in the “ “ column.
I want you to keep only the email address, without bullets and bulleted lists, etc.
- Remplir la variable dans le prompt, c’est à dire le numéro de la colonne
Et voilà, le tour est joué !
En quelques minutes seulement, Adrien a pu isoler les adresses e-mails professionnelles de sa cible, les clubs de sports. Cette simple manipulation permet de gagner des heures de travail, surtout quand on dispose d’une base de données avec des milliers de lignes.
Rédiger du code avec Code Interpreter sur ChatGPT
Un Data analyst doit régulièrement écrire des lignes de codes avec le langage Python (Ou SQL) pour mener à bien de la Data Analysis.
Selon l’objectif visé, collecter et nettoyer des données ou créer des visualisations de données… Le codage peut s’annoncer plus ou moins compliqué. D’ailleurs, c’est souvent à cette étape que des erreurs de codage surviennent.
- Des erreurs de syntaxe et de programmation (fautes de frappe, mauvaise indentation…) ;
- Une mauvaise gestion des exceptions ;
- Une mauvaise manipulation des données ;
- Etc.
Avec ChatGPT et Code Interpreter, il est possible de produire des lignes de code spécifiques à notre objectif. Mais aussi de vérifier la qualité de son code et détecter les erreurs qui empêchent sa bonne exécution.
L’extension Code Interpreter de ChatGPT permet de générer et d'exécuter du code.
Le guide de Pandia vous expliquera comment l’installer et le mettre en œuvre.
Faciliter la visualisation des données sur ChatGPT Plus
La Datavisualisation est une compétence qui permet de transformer des données brutes en graphiques attrayants. Pour y parvenir, les Data analysts utilisent les logiciels Tableau et Power BI.
Ces logiciels demandent un savoir-faire spécifique, puisque ce sont des outils pour data analyst assez poussés qui permettent d’aller très loin dans la visualisation de données.
Si vous n’avez pas les compétences ou le temps nécessaires pour produire de jolis graphiques, ChatGPT peut vous aider dans certaines tâches.
Bien sûr, il y aura toujours des limites à la visualisation de certaines données.
Attention cependant, vous devez être abonné ChatGPT Plus pour avoir cette option.
Avec Code Interpreter ChatGPT, il est possible de générer des visualisations de données.
Comment l’utiliser ?
Il suffit de le lui demander. À travers une phrase descriptive et de votre fichier Excel/CSV contenant vos données le chatbot va vous créer un graphique adapté.
À partir de vos données, il créera des :
- Diagrammes circulaires ;
- Graphiques linéaires ;
- Diagrammes de dispersion ;
- Graphiques en barres,
- Etc...
Rédiger de la documentation sur ChatGPT
Dans les projets Data, il est fréquent de devoir rédiger de la documentation pour les équipes internes ou ses clients.
Une documentation interne sert à suivre les différentes règles d'insertion de code, ou alors à s'y référer dès qu'on doit faire une mise à jour justement.
Ce n’est pas la tâche la plus stimulante, pourtant elle est incontournable dans la Data analysis.
Une documentation inexistante ou mal rédigée peu impactée négativement la mise en œuvre d’un projet dans la durée.
En revanche, si elle est bien écrite, la documentation peut aider à se remémorer un projet réalisé plusieurs années auparavant. Avec elle, c’est plus facile de comprendre les tenants et aboutissants d’un projet Data que de se plonger dans un vieux code source.
Grâce à Chat GPT, il est possible de produire des rapports de qualité.
Pour y arriver, il suffit de le conditionner dans sa rédaction, en précisant :
- Les rubriques, chapitres à mentionner
- Les informations à mettre en avant
- Le style d’écriture souhaité (concis, soutenu…)
Et de lui transmettre les fichiers comprenant l’ensemble des informations du projet.
À partir de votre prompt et des fichiers transmis, ChatGPT va produire un plan de la documentation et remplir les parties afférentes.
Encore une fois, le chatbot permet de gagner un temps précieux sur des tâches à faible valeur ajoutée pour le Data analyst.
Extension Code Interpreter, qu'est-ce que c'est réellement ?
L'extension Code Interpreter est un outil incontournable lorsqu'on rédige du code avec ChatGPT.
Intégration totale et simple avec ChatGPT
L'extension Code Interpreter se présente comme une extension intégrée à ChatGPT. Pas d'outil qui ramène vers une plateforme externe. Tout se passe sur l'interface de ChatGPT.
Pour la Data Analysis, c'est un gain de temps énorme, car on ne perd pas de temps à changer de plateforme, ou alors à reconstruire des BDD pour ensuite faire des jointures SQL sur un outil comme Power BI.
Code Interpreter rend la chose hypersimple.
Pour un article détaillé sur le Code Interpreter de Chatgpt, nous avons construit un guide Code Interpreter spécialisé pour la Data Analysis.
Pourquoi est-il primordial d'avoir de bons Prompts ChatGPT ?
Meilleurs Prompts Chatgpt = Meilleure sortie /output
Les prompts sont bien plus qu'une simple ligne de commande.
Ils sont la clé qui déverrouille le potentiel réel de ChatGPT.
Opter pour des prompts de qualité supérieure se traduit par une valeur ajouté décuplé.
En mettant l'accent sur la sélection de prompts de haut niveau, vous assurez une sortie (output) exceptionnelle.
C'est la garantie d'obtenir des réponses plus pertinentes, mieux structurées, et alignées sur vos attentes.
Dans la data, ça fait d'autant plus sens.
Parce que si un prompt est mal construit ou alors de faible niveau, on obtiendra une réponse de l'IA qui sera à la ramasse de ce qu'on veut réellement.
Nous avons chez DataBird fait une liste des 10 prompts indispensables pour un Data Analyst. Pour mieux vous guider, et vous aider à générer des réponses pertinentes.
Qualité : Meilleure qualité de rédaction de contenu
La qualité de rédaction est au cœur de l'expérience utilisateur avec ChatGPT.
En choisissant avec soin vos prompts, vous guidez le modèle vers une rédaction plus élaborée, détaillée et qualitative, pour une meilleure expérience de lecture.
Cela se traduit par du contenu qui captive vos lecteurs et renforce l'impact de votre message.
L'avenir de la Data Analyse avec ChatGPT : Danger ou opportunité ?
Nous venons de le voir, ChatGPT métamorphose en profondeur les activités professionnelles du Data analyst. Lui faisant gagner un temps considérable dans ses tâches quotidiennes.
Mais une question mérite d’être posée. ChatGPT risque-t-il, à terme, de remplacer les Data analysts dans les organisations ?
C’est vrai, on pourrait se demander quelles sont les limites de cet outil surpuissant ? Surtout avec les capacités de l'extension Code Interpreter qui rend le codage accessible à pas mal de monde.
À cette vitesse, ne va-t-il pas nous mettre tous au chômage ?
Eh bien pas tout à fait.
Chez DataBird, nous avons notre avis sur le sujet. Non, ChatGPT ne va pas remplacer les professionnels de la Data. Nous voyons cette technologie comme un outil, et non comme un concurrent.
De la même manière qu’un robot de cuisine ne remplace pas un pâtissier, mais l’aide à gagner en productivité.
Ce Chatbot nouvelle génération permet à nous, professionnels de la Data, de gagner un temps précieux sur des opérations à faible valeur ajoutée. Et de nous concentrer sur des tâches à fort enjeu stratégique.
Le traitement de la donnée aura toujours besoin de l' intelligence humaine, et même GPT 4 (le dernier modèle d' OpenAI ne peut pas encore effectuer une lecture et une analyse complète de la Data.
GPT 4 d' OpenAI : Pas encore une IA autonome.
ChatGPT n’est qu’un exécutant, ce n’est pas un penseur. C'est encore moins un créatif.
On est encore loin du mythique Terminator. OpenAI et GPT 4 (et tous les modèles GPT Open Source ou Close Source) ne peuvent pas encore rivaliser avec une intelligence créative. Ils peuvent simplement faire une lecture de concept et n'ont accès qu'à un certain nombre d'informations.
Aujourd’hui, il n’est pas capable de fonctionner ni d'effectuer d' analyse sans intervention humaine.
Il est encore moins capable de faire de la Data Analysis tout seul.
Et demain ?
Peu importe le niveau d’autonomie qu’il aura ces prochaines années, il y aura toujours besoin des experts Data pour cadrer les projets. De la réflexion stratégique, au contrôle des livrables produits.
Ce seront toujours les humains qui interagiront avec d’autres humains.
En attendant, suivez bien les évolutions de ChatGPT, nous pensons qu’il va continuer à nous aider dans nos métiers !
Vous vous êtes sûrement demandé comment faire pour démêler le vrai du faux concernant l'IA en entreprise ? Rejoignez Baptiste lors de notre Data Talk pour échanger sur ce sujet captivant.
Je m'inscris