Démarrer avec Dataiku 4.0 : réaliser votre premier modèle d’analyse prédictive (la suite)

Dans l’article précédent, nous avons préparé et nettoyé nos données clients. Voyons maintenant comment, à partir de celles-ci, nous pouvons prévoir quels clients deviendront de bons clients.

3ème étape : Visualisation des données

  • Cliquer sur Charts

image_14

  • Par exemple, pour commencer à chercher des corrélations que les modèles établiront de manière plus précise, nous allons visualiser la répartition des clients en fonction de la valeur de leur 1er achat et de leur statut de bon client au bout d’un an (ce statut est stocké dans la variable high_revenue).

image_15

De manière assez intuitive, nous voyons que la proportion de clients ayant acheté un premier article d’une valeur élevée (en vert : entre 96 et 117 euros) est significativement plus forte chez les clients étant devenus de bons clients au bout d’un an.

Est-ce qu’il ne serait pas possible de prévoir de manière plus précise et fiable quels clients deviendront de bons clients ?

L’analyse prédictive analyse des faits présents et passés pour faire des hypothèses prédictives sur les événements futurs et identifier les risques et les opportunités.

Voyons, sur cet exemple concret d’analyse prédictive appliquée au domaine du marketing, comment procéder.

4ème étape : Analyse prédictive

4.1 Définition de la variable d’intérêt

  • Nous choisissons la variable « high revenue » comme variable d’intérêt : c’est cette variable que les modèles vont s’entraîner à prédire en fonction des autres variables sur des données existantes (phase d’apprentissage dans le processus de machine learning), de façon à être capables à l’avenir de la prédire à partir d’un fichier de nouveaux clients dont on ne sait pas encore si ce seront de bons clients.

image_16

4.2 Exécution et performance des algorithmes d’analyse prédictive

En standard, DSS déroule les deux algorithmes suivants : régression logistique (logistic regression) et forêt d’arbres décisionnels (random forest).

L’indicateur ROC AUC indique l’efficacité de l’algorithme à prédire la variable d’intérêt sur le jeu d’essai (plus la valeur de l’indicateur est élevée, plus l’algorithme est performant).

image_17

Nous voyons que c’est l’algorithme de régression logistique qui est le plus performant.

4.3 Compréhension des résultats et de la qualité de la prédiction

En cliquant sur le nom des algorithmes, nous obtenons des informations supplémentaires pour comprendre les résultats et la qualité de la prédiction :

  • La liste des variables utilisées par l’algorithme : toutes ont été utilisées sauf l’identifiant du client.

image_18

  • L’importance des variables : comme nous l’avions deviné, la valeur du 1er article acheté a une importance significative mais les autres variables ont également été utilisées pour affiner la prédiction.

image_19

  • Le graphe de densité :  plus les courbes sont éloignées, plus l’algorithme est robuste car il y a peu ou pas de chevauchement entre les lignes prédites avec une valeur 1 et les lignes prédites avec une valeur 0.

image_20

La graphe de densité est meilleur pour l’algorithme random forest.

4.4 Optimisation des algorithmes d’analyse prédictive

Nous allons maintenant tenter d’optimiser la performance des modèles en ajoutant dans le scoring l’âge de chaque client.

Utilisation de la fonction « Compute time since » …

image_21

image_22

… et ajout de la colonne « âge » :

image_23

  • Les deux algorithmes ont amélioré leur performance et c’est maintenant l’algorithme « random forest » qui est le plus performant.

image_24

4.5 Déploiement du modèle choisi

Nous allons maintenant déployer ce modèle …

image_25

… pour pouvoir l’appliquer sur un jeu de données qui ne contient pas encore la variable d’intérêt à prédire.

image_26

  • Nous obtenons comme résultat pour chaque ligne (client) 3 variables supplémentaires :

– la prédiction : selon le modèle sélectionné, le client sera-t-il un bon client dans un an ?

– la probabilité que le client soit un bon client (l’outil choisit cette option à partir d’une probabilité de 0.65),

– la probabilité qu’il ne le soit pas.

image_27

Félicitations…. Vous êtes maintenant capables de réaliser votre première analyse prédictive avec Dataiku !

Facilité d’installation et de prise en main… l’objectif de Dataiku de rendre la data science plus accessible a bien l’air d’être en passe d’être réussi !

Découvrez IBM COGNOS Insight

Avec la version 10.1, l’éditeur IBM COGNOS a sorti en mars 2012 IBM COGNOS Insight, le dernier outil de Business Application.

IBM COGNOS Insight est une solution analytique personnelle qui vous permet d’explorer, d’analyser, de visualiser, de simuler et de partager en toute indépendance vos données locales.

Avec cette nouvelle offre, IBM COGNOS veut se positionner sur le marché de la Data Visualisation pour concurrencer Qlikview et Tableau Software.

  • Explorer : Importez, fusionnez et analysez tous les types de données sur votre PC par simple « glisser / déposer »

  • Analyser : Créez des applications personnalisées, des tableaux de bord afin de visualiser les données.

  • Visualiser et simuler : Ayez un contrôle complet de la présentation avec des fonctionnalités de simulation (technologie TM1).

  • Partage et publication sur le portail Ibm Cognos BI C10 sous la forme d’une application.
%d blogueurs aiment cette page :