Démarrer avec Dataiku 4.0 : réaliser votre premier modèle d’analyse prédictive (la suite)

Dans l’article précédent, nous avons préparé et nettoyé nos données clients. Voyons maintenant comment, à partir de celles-ci, nous pouvons prévoir quels clients deviendront de bons clients.

3ème étape : Visualisation des données

  • Cliquer sur Charts

image_14

  • Par exemple, pour commencer à chercher des corrélations que les modèles établiront de manière plus précise, nous allons visualiser la répartition des clients en fonction de la valeur de leur 1er achat et de leur statut de bon client au bout d’un an (ce statut est stocké dans la variable high_revenue).

image_15

De manière assez intuitive, nous voyons que la proportion de clients ayant acheté un premier article d’une valeur élevée (en vert : entre 96 et 117 euros) est significativement plus forte chez les clients étant devenus de bons clients au bout d’un an.

Est-ce qu’il ne serait pas possible de prévoir de manière plus précise et fiable quels clients deviendront de bons clients ?

L’analyse prédictive analyse des faits présents et passés pour faire des hypothèses prédictives sur les événements futurs et identifier les risques et les opportunités.

Voyons, sur cet exemple concret d’analyse prédictive appliquée au domaine du marketing, comment procéder.

4ème étape : Analyse prédictive

4.1 Définition de la variable d’intérêt

  • Nous choisissons la variable « high revenue » comme variable d’intérêt : c’est cette variable que les modèles vont s’entraîner à prédire en fonction des autres variables sur des données existantes (phase d’apprentissage dans le processus de machine learning), de façon à être capables à l’avenir de la prédire à partir d’un fichier de nouveaux clients dont on ne sait pas encore si ce seront de bons clients.

image_16

4.2 Exécution et performance des algorithmes d’analyse prédictive

En standard, DSS déroule les deux algorithmes suivants : régression logistique (logistic regression) et forêt d’arbres décisionnels (random forest).

L’indicateur ROC AUC indique l’efficacité de l’algorithme à prédire la variable d’intérêt sur le jeu d’essai (plus la valeur de l’indicateur est élevée, plus l’algorithme est performant).

image_17

Nous voyons que c’est l’algorithme de régression logistique qui est le plus performant.

4.3 Compréhension des résultats et de la qualité de la prédiction

En cliquant sur le nom des algorithmes, nous obtenons des informations supplémentaires pour comprendre les résultats et la qualité de la prédiction :

  • La liste des variables utilisées par l’algorithme : toutes ont été utilisées sauf l’identifiant du client.

image_18

  • L’importance des variables : comme nous l’avions deviné, la valeur du 1er article acheté a une importance significative mais les autres variables ont également été utilisées pour affiner la prédiction.

image_19

  • Le graphe de densité :  plus les courbes sont éloignées, plus l’algorithme est robuste car il y a peu ou pas de chevauchement entre les lignes prédites avec une valeur 1 et les lignes prédites avec une valeur 0.

image_20

La graphe de densité est meilleur pour l’algorithme random forest.

4.4 Optimisation des algorithmes d’analyse prédictive

Nous allons maintenant tenter d’optimiser la performance des modèles en ajoutant dans le scoring l’âge de chaque client.

Utilisation de la fonction « Compute time since » …

image_21

image_22

… et ajout de la colonne « âge » :

image_23

  • Les deux algorithmes ont amélioré leur performance et c’est maintenant l’algorithme « random forest » qui est le plus performant.

image_24

4.5 Déploiement du modèle choisi

Nous allons maintenant déployer ce modèle …

image_25

… pour pouvoir l’appliquer sur un jeu de données qui ne contient pas encore la variable d’intérêt à prédire.

image_26

  • Nous obtenons comme résultat pour chaque ligne (client) 3 variables supplémentaires :

– la prédiction : selon le modèle sélectionné, le client sera-t-il un bon client dans un an ?

– la probabilité que le client soit un bon client (l’outil choisit cette option à partir d’une probabilité de 0.65),

– la probabilité qu’il ne le soit pas.

image_27

Félicitations…. Vous êtes maintenant capables de réaliser votre première analyse prédictive avec Dataiku !

Facilité d’installation et de prise en main… l’objectif de Dataiku de rendre la data science plus accessible a bien l’air d’être en passe d’être réussi !

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :