Les outils Microsoft de data mining sous Excel

Microsoft fournit depuis de nombreuses années un composant permettant de connecter  Excel aux fonctionnalités de Data Mining de SQL Serveur Analysis Services (SSAS). Je vais vous en donner un aperçu dans ce billet.

Une fois installé, de nouvelles fonctionnalités apparaissent sous Excel dans « Exploration de données »

DMToolBar

La qualité de données

DMPreparer

Les trois premiers outils automatisent des tâches de qualité de données. Ils ne nécessitent pas de connexion à un serveur SSAS.

On pourra ressortir des statistiques simples sur certaines colonnes (« Explorer les données »), gérer les valeurs atypiques par remplacements avec une moyenne ou une valeur par défaut (« Nettoyer les données »), ou extraire de son jeu d’enregistrement un jeu de test statistiquement valable (« Exemples de données »).

La modélisation

DMModeliser

Les tâches de modélisation de données reprennent les algorithmes proposés par SSAS et permettent de les appliquer sur vos données. Les sources peuvent être une feuille Excel ou un accès à une base de données (SQL Serveur uniquement).

On retrouve les fonctions détaillées ci-après.

Classer

La fonction « Classer » met en œuvre le modèle basé sur les arbres de décision. Les étapes sont simples, choix d’une variable à déterminer et critères à prendre en compte.

Ici, par exemple, l’acceptation d’un crédit en fonction du motif de l’emprunt, de l’assurance et des revenus.

image005

L’outil va faire apparaître les critères les plus discriminants de notre variable (emprunt accepté : oui/non). La restitution se fait avec un arbre de décision.

image006

On visualise sur la partie de gauche les informations du nœud sélectionné (ici « Assurance = ‘oui’ and Revenu_Menage >= 4604 » pour lequel on a 84,26% d’acceptation contre 14,74% de refus).

Estimer

La fonction « Estimer » permet de prévoir le résultat d’une valeur numérique en fonction des différentes caractéristiques de la population. Elle reprend la même représentation que la classification.

Cluster

La fonction « Cluster » construit des familles. L’objectif n’est pas de prédire une valeur mais de regrouper les individus du jeu de données en groupes homogènes.

La première étape consiste à sélectionner les caractéristiques à prendre en compte et de spécifier le nombre de groupes à déterminer (on peut aussi laisser l’algorithme le définir).

image008

Les résultats sont présentés par groupes (cluster) avec les caractéristiques des individus les composant (soit des moyennes et écarts types pour les variables continues, soit la distribution pour les variables discrètes).

image010

Associer et prévoir

« Associer » permet de créer une analyse du panier et « prévoir » fait intervenir des prédictions de séries (chronologiques par exemple).

Dans tous les cas, les modèles créés peuvent être temporaires ou sauvegardés sous SSAS. Et comme tous les modèles sauvegardés, ils pourront être réutilisés dans l’ETL de Microsoft (SSIS)… le sujet d’un autre billet.

Les tâches de maintenance

Les autres tâches vous permettront de valider la qualité de vos modèles (par application d’un jeu de données différent de celui ayant servi à la modélisation) et de les gérer sur le serveur SSAS (suppression, renomage, etc.).

En conclusion

Cet outil permet une approche utilisateur des algorithmes de datamining de SSAS. Il n’a jamais été aussi simple d’aboutir à un modèle. Il ne reste plus qu’à laisser les analystes de données en faire ressortir une compréhension et une valeur métier.

 

Nouveautés Power Query pour Excel

Un petit post sur le composant d’extraction de données Power Query dans Excel qui est en constante évolution ces derniers mois.

La semaine dernière, une nouvelle version est sortie, qui apporte quelques fonctionnalités intéressantes.

On notera surtout une amélioration de l’interface utilisateur, ainsi que l’ajout d’opérations de filtrage des requêtes.

Tout est bien expliqué par Émilie par ici :

http://blogs.technet.com/b/bi_france/archive/2015/04/18/6-nouveaut-233-s-pour-power-query-sur-excel.aspx

Sortie de Qlik Sense – charger des données

Après les deux premiers articles consacrés à la découverte de Qlik Sense et à l’expérience utilisateur, je vous propose aujourd’hui de découvrir comment charger des données dans Qlik Sense.

Charger un fichier Excel dans Qlik Sense : facile !

La première étape consiste à vous connecter au hub puis créer une nouvelle application. Une fois cette nouvelle application créée, vous allez simplement faire un glisser-déposer du fichier dans l’interface afin de lancer l’assistant qui va vous guider dans la création de l’ordre de chargement.

Qlik Sense Excel

Glisser-déposer le fichier

Vous pouvez alors sélectionner l’onglet ainsi que les colonnes que vous souhaitez charger dans l’outil. Une fois cette opération réalisée, il ne vous reste plus qu’à cliquer sur Load data de façon à générer l’ordre de chargement correct et lancer son exécution.

Selection données Qlik Sense Excel

Sélection des données Excel

L’application rechargée, vous pouvez alors modifier son aspect visuel ou retourner dans la partie acquisition des données en cliquant sur l’icone de boussole puis Data load editor.

DataLoad Editor

DataLoad Editor

Charger des informations depuis une base de données dans Qlik Sense

Une fois dans l’éditeur de chargement de données, vous visualisez sur le côté droit les différentes connexions existantes (fichiers, BDD…). Vous devez cliquer sur Create new connection pour sélectionner ODBC ou OLEDB afin de se connecter à la base et pouvoir sélectionner les différentes tables et/ou colonnes souhaitées en cliquant sur l’icône cerclée de rouge ci-dessous. Finalement, vous devez cliquer sur Insert script pour ajouter l’ordre de chargement. A noter que dans Qlik Sense, les jointures entre les données se font sur l’homonymie des colonnes. Vous devez donc renommer au besoin les informations en double cliquant sur les entêtes dans les assistants ou en utilisant le mot clé AS dans le script.

Select

Sélectionner les tables

Chargement BDD

Chargement BDD

Bilan

Qlik Sense permet de se connecter et mixer différentes sources de données, on retrouve un fonctionnement très similaire à ce qui peut exister dans le produit QlikView avec cette partie scripting.

Rendez-vous la semaine prochaine pour le dernier article de cette série qui sera consacré à la BI Self Service.

Quelques nouveautés et optimisations de la BI 4

Kill Session

Il est enfin arrivé !

Depuis la nouvelle version de SAP BusinessObjects BI 4.1, il n’est plus nécessaire d’avoir un développement spécifique pour supprimer les sessions des utilisateurs. Cette fonction, très utile dans le cas d’un environnement comprenant des sessions simultanées, est maintenant incluse dans la console de management de BO.

L’accès à cette nouvelle fonctionnalité se fait à l’aide la CMC et du menu « Sessions ».

kill session

L’écran de gestion des sessions contient une nouvelle partie.

kill session

Afin d’avoir le détail des sessions d’un utilisateur, il suffit de sélectionner la ligne correspondante. La partie basse de l’écran contient la liste de toutes les sessions de l’utilisateur sélectionné.

kill session - management console

Pour terminer une session utilisateur, on se positionne sur la session et l’option « Terminer la session » s’active.

kill session - terminer la session

Un clic sur « Terminer la session » et celle-ci est libérée. Cet écran permet de sélectionner plusieurs sessions, de trier les sessions et de savoir à partir de quel outil cette session est utilisée.

A noter que seule la session BO est coupée ; si une requête est envoyée à une base source pour rafraîchir un état, cette session reste active pendant la durée de la requête.

(Référence : http://scn.sap.com/community/bi-platform/blog/2014/03/24/kill-session-in-bi41-sp3)

Regroupement de valeurs dans WebI

Vous hésitez à migrer votre ancien environnement BO (5.x, 6.x, XI 3.x) vers la dernière version 4.1, la possibilité de regrouper les valeurs dans un état WebI s’ajoute à la liste des arguments.

regroupement valeurs webI

Après avoir sélectionné la colonne sur laquelle vous souhaitez faire votre regroupement, une fenêtre de gestion s’affiche.

Gérer groupes

A partir de cet écran, il est possible de regrouper les valeurs, de nommer les regroupements et de définir le nom de la variable de regroupement.

regroupement etat

Une fois les valeurs regroupées, le nouvel objet est disponible dans la liste des objets utilisables pour la conception des rapports.

Regroupement états

A noter qu’apparaissent, dans les valeurs de la nouvelle variable, les valeurs des données regroupées et les valeurs des données non regroupées ; si une nouvelle valeur apparaît dans la liste des états, cette valeur s’affichera de façon individuelle (exemple : état du Colorado ou état du Massachusetts).

Il est possible de modifier ces regroupements via l’écran de gestion.

Gérer des groupes

A partir de cet écran, nous sommes en mesure de modifier tous les paramètres : renommer les groupes, grouper, déplacer ou dégrouper des éléments

Gérer groupes sélection

Grâce à cette nouvelle fonctionnalité dans WebI, les utilisateurs retrouvent donc la possibilité de gérer leurs propres regroupements, une des dernières fonctions spécifiques à DeskI non disponibles dans WebI.

Accès aux Univers dans Excel avec Microsoft Power Query

Depuis la version 2013 d’Excel et à l’aide de l’add-on « Power Query », il est maintenant possible d’accéder aux univers. Seuls les univers au format unx sont disponibles.

Format

Une fois choisie la connexion vers un univers, il faut paramétrer l’URL d’accès à l’environnement.

Paramétrage URL

La suite du paramétrage nécessite la saisie des données de sécurité.

Saisie données sécurité

Une fois connecté, la liste des univers disponibles s’affiche.

Liste univers

Pour chaque univers, on peut accéder aux dimensions et aux indicateurs.

Dimensions et indicateurs

Pour l’univers choisi, on sélectionne les objets que l’on souhaite ramener dans Excel. L’exécution de la requête se fait en cliquant sur « Charger ».

Sélection objets via charger

La requête est envoyée à la source et les données sont rapatriées dans une feuille Excel.

Excel

Il est possible de rafraîchir les données et de modifier la liste des objets ramenés.

Modification objets

Les possibilités offertes par cet add-on sont limitées par rapport à SAP BusinessObjects LiveOffice, mais cela apporte une ouverture entre la nouvelle suite Microsoft Power BI et l’univers SAP BusinessObjects.

La fonction « Arrondir() »

Depuis l’arrivée de la version 4.1, un problème de traduction contraignait les utilisateurs à passer en anglais pour valider une formule contenant la fonction « Arrondir() ».

Le problème est résolu à partir des versions 4.1 SP2 Patch 5, 4.1 SP3 Patch 1 et 4.1 SP4.

Arrondir

Le résultat dans un état WebI est de nouveau exploitable sans changer de langue.

Résultat arrondi webI

 

%d blogueurs aiment cette page :