Les outils Microsoft de data mining sous Excel

Microsoft fournit depuis de nombreuses années un composant permettant de connecter  Excel aux fonctionnalités de Data Mining de SQL Serveur Analysis Services (SSAS). Je vais vous en donner un aperçu dans ce billet.

Une fois installé, de nouvelles fonctionnalités apparaissent sous Excel dans « Exploration de données »

DMToolBar

La qualité de données

DMPreparer

Les trois premiers outils automatisent des tâches de qualité de données. Ils ne nécessitent pas de connexion à un serveur SSAS.

On pourra ressortir des statistiques simples sur certaines colonnes (« Explorer les données »), gérer les valeurs atypiques par remplacements avec une moyenne ou une valeur par défaut (« Nettoyer les données »), ou extraire de son jeu d’enregistrement un jeu de test statistiquement valable (« Exemples de données »).

La modélisation

DMModeliser

Les tâches de modélisation de données reprennent les algorithmes proposés par SSAS et permettent de les appliquer sur vos données. Les sources peuvent être une feuille Excel ou un accès à une base de données (SQL Serveur uniquement).

On retrouve les fonctions détaillées ci-après.

Classer

La fonction « Classer » met en œuvre le modèle basé sur les arbres de décision. Les étapes sont simples, choix d’une variable à déterminer et critères à prendre en compte.

Ici, par exemple, l’acceptation d’un crédit en fonction du motif de l’emprunt, de l’assurance et des revenus.

image005

L’outil va faire apparaître les critères les plus discriminants de notre variable (emprunt accepté : oui/non). La restitution se fait avec un arbre de décision.

image006

On visualise sur la partie de gauche les informations du nœud sélectionné (ici « Assurance = ‘oui’ and Revenu_Menage >= 4604 » pour lequel on a 84,26% d’acceptation contre 14,74% de refus).

Estimer

La fonction « Estimer » permet de prévoir le résultat d’une valeur numérique en fonction des différentes caractéristiques de la population. Elle reprend la même représentation que la classification.

Cluster

La fonction « Cluster » construit des familles. L’objectif n’est pas de prédire une valeur mais de regrouper les individus du jeu de données en groupes homogènes.

La première étape consiste à sélectionner les caractéristiques à prendre en compte et de spécifier le nombre de groupes à déterminer (on peut aussi laisser l’algorithme le définir).

image008

Les résultats sont présentés par groupes (cluster) avec les caractéristiques des individus les composant (soit des moyennes et écarts types pour les variables continues, soit la distribution pour les variables discrètes).

image010

Associer et prévoir

« Associer » permet de créer une analyse du panier et « prévoir » fait intervenir des prédictions de séries (chronologiques par exemple).

Dans tous les cas, les modèles créés peuvent être temporaires ou sauvegardés sous SSAS. Et comme tous les modèles sauvegardés, ils pourront être réutilisés dans l’ETL de Microsoft (SSIS)… le sujet d’un autre billet.

Les tâches de maintenance

Les autres tâches vous permettront de valider la qualité de vos modèles (par application d’un jeu de données différent de celui ayant servi à la modélisation) et de les gérer sur le serveur SSAS (suppression, renomage, etc.).

En conclusion

Cet outil permet une approche utilisateur des algorithmes de datamining de SSAS. Il n’a jamais été aussi simple d’aboutir à un modèle. Il ne reste plus qu’à laisser les analystes de données en faire ressortir une compréhension et une valeur métier.

 

3 Responses to Les outils Microsoft de data mining sous Excel

  1. Hervé DORIER says:

    A reblogué ceci sur Microsoft & Vous.

  2. Gabin says:

    Bonjour,
    Comment peut t’on télécharger ce composant?

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :