Démarrer avec Dataiku 4.0 : réaliser votre premier modèle d’analyse prédictive

Vous voulez découvrir l’analyse prédictive et les algorithmes de machine learning avec Dataiku ? C’est par ici… nous vous guidons pas à pas.

A quoi ça sert ?

Dataiku est un outil qui permet de :

  • préparer les données (nettoyage, enrichissement),
  • les analyser et les visualiser,
  • faire de l’analyse prédictive (par exemple, dans le domaine du marketing, être capable dès la première interaction avec un client de prédire si celui-ci sera un bon client),
  • automatiser ces analyses et modèles.

1ère étape : installation et lancement de DSS (Data Science Studio)

Dataiku est un outil qui fonctionne exclusivement sous Linux ; Il est possible de le faire fonctionner sous Windows en installant une machine virtuelle comme décrit ci-dessous :

  • Depuis le gestionnaire de programmes, lancer Oracle VM Virtual Box

image_1

  • Importer la machine virtuelle DSS que vous venez de télécharger (dataiku-dss-4.0.1.ova)

image_2

  • Démarrer la machine virtuelle

image_3

Note : l’URL à utiliser est affichée au moment du démarrage de la machine virtuelle (en standard, c’est celle qui est donnée ici).

Nous allons traiter comme exemple l’analyse d’un fichier de données, mais il est possible également avec dataiku d’analyser des données provenant de bases SQL, no SQL, de clouds, de clusters Hadoop…

Nous procéderons dans un premier temps à l’import des données, puis à leur nettoyage. Dans un deuxième temps, nous les analyserons grâce à la data visualisation et à l’analyse prédictive.

2ème étape : préparation des données

2.1 Importer le fichier de données à analyser

image_4

image_5

image_6

  • Ouvrir le LAB

image_7

2.2 Exemples d’actions de nettoyage de données

  • Supprimer les lignes pour lesquelles le pays n’est pas renseigné

image_8

  • Nous voyons que l’outil a automatiquement analysé les colonnes et positionné le type correspondant. Pour la colonne « campaign », qui indique si le client a été ciblé par une campagne de marketing, nous voyons ci-dessous que le type positionné par dataiku est « entier » et que des valeurs incorrectes ont été détectées.

image_9

Nous voyons que les valeurs incorrectes correspondent à des saisies non cohérentes (booléen 0/1 de manière générale mais quelques valeurs saisies en mode true/false).

Passons en mode analyse pour pouvoir corriger ces saisies incohérentes.

image_10

image_11

Il est possible de merger les saisies incohérentes avec celles qui sont correctes…

image_12

… de façon à avoir des données propres et analysables.

image_13

Les données sont prêtes à être analysées !

Nous verrons dans un prochain article comment les exploiter de manière simple dans un exemple concret d’analyse prédictive appliquée au domaine du marketing.

One Response to Démarrer avec Dataiku 4.0 : réaliser votre premier modèle d’analyse prédictive

  1. Fouzia HAMADI says:

    Très intéressant. Merci pour cet article, super bien présenté!

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :