Qu’est-ce que la ‘Data Preparation’ et à quoi sert-elle ?

Selon Experian, 92% des entreprises n’ont pas confiance en leur données et 56% des entreprises sondées n’arrivent pas à prendre des décisions souhaitées. Gartner, de son côté, parle de la nouvelle BI et de la BI en self-service ; Il prévoit que d’ici 2020, la moitié des efforts consentis dans l’intégration des données passeront par des plateformes de la Data Preparation.

Aujourd’hui, un utilisateur ou un Data-Analyste passe 80% de son temps pour avoir des données propres et exploitables. Un autre problème auquel doivent faire face ces deux acteurs est le partage et la gouvernance des données.

Dans cet article, nous allons parler du domaine de la préparation des données, ainsi que des problématiques, des motivations, et du marché de la Data Preparation. Nous conclurons dans un prochain article par un atelier technique sur les deux outils leaders de ce marché : Trifacta et Talend Data Preparation.

Quelques Définitions

  • Data-Quality : Traitement d’amélioration de la qualité des données, permettant à l’utilisateur d’offrir des données fraîches, accessibles, fiables, cohérentes et exploitables.
  • Data-Wrangling : Processus de transformation des données d’une manière visuelle et interactive.
  • Data-Profiling : Processus de collecte des données et des statistiques sur ces données.
  • Data-Preparation : Ensemble des étapes (Découverte, Structuration, Nettoyage, Enrichissement, Validation, Publication) qui viennent en amont de la restitution des données.

Étapes de la Data Preparation

etapes data preparation

Problématiques de la Data Preparation

  • 80 % du temps d’un processus (BI/Big Data) est dans la préparation des données
  • Complexité de la construction d’un Data Warehouse
    • Le développement prend un temps énorme (problème de la fraîcheur des données)
    • Architecture Rigide (enrichissement, nouveau besoins)
  • Intégration et alimentation complexe
  • Faiblesse des outils de préparation classiques
    • Pas de gouvernance de données
    • Ne supportent pas le passage à l’échelle
    • Découverte et transformation difficile

Motivations et promesses de la Data Preparation

  • L’analytique en self-service
  • Gouvernance et collaboration
  • Accélération de l’exploitation des données

Cas d’utilisation des outils de la Data Preparation

Certains d’entre vous se posent déjà la question suivante : « Puis-je tirer profit de ces outils, comment et dans quels cas ? »

Nous avons détecté dans notre analyse des cas d’utilisation réels où ces outils peuvent être mis en œuvre afin d’apporter de la valeur dans les projets de la transformation des données.

  1. L’entreprise manque de compétences ETL

Dans le cas où l’entreprise ne possède pas des compétences ETL, et celle-ci a besoin de nettoyer et transformer ses données, les outils de la Data Preparation sont là pour subvenir à ses besoins. Cependant, ces outils ne remplacent pas un processus ETL, ils peuvent remplacer quelques besoins de transformation comme ils peuvent être associés à un processus, en apportant une certaine agilité dans le processus ETL. Talend mise beaucoup sur ce dernier point.

  1. Besoin de données fraîches

Dans le cas où la fraîcheur des données est importante (marchés financiers…), les données doivent être préparées dans les plus brefs délais, sans créer une architecture lourde (comme la constitution d’un Data Warehouse) et sachant que les flux de données ainsi que les besoins diffèrent chaque jour.

  1. Variété et vélocité dans la Big Data

La vélocité et la variété des types et des structures de données exigent de nouvelles stratégies pour l’identification et la rationalisation des données dans un système d’information.

Comme dans les plateformes big data, il peut y avoir une variété importante de données avec différentes structures, ne permettant pas le traitement avec un processus ETL unique standard. En construisant un nouveau processus, nous pouvons perdre en vélocité. Ces plateformes de la Data Preparation pourront limiter cette perte en vélocité. En effet, l’utilisateur pourra s’adapter à cette variation des données, et traiter chaque cas d’une manière manuelle selon son besoin.

Outils de la Data Preparation

Gartner classe ces outils en trois grandes familles :

Outils data preparation

Outils leaders dans la Data Preparation

Outils leaders data preparation

Démonstration

Pour se familiariser avec ces outils, nous mettrons en pratique -dans un prochain article- un cas concret avec Talend Data Preparation, puis avec  Trifacta.

Dans ce cas concret, les données ne seront pas très propres. Nous tenterons de corriger les valeurs manquantes, éliminer les valeurs aberrantes, enrichir le jeu avec une autre source, et construire une adresse email à partir de colonnes existantes.

Les nouveautés de SAP BI4.2 SP4

Vous utilisez SAP BI ? Voici un article récapitulatif des nouveautés du SP4 de la version SAP BI4.2, disponible depuis fin mai 2017.

Nous ne prétendons pas ici être exhaustifs et vous lister dans le détail toutes les nouvelles fonctionnalités et options du SP4, mais si vous ne devez retenir que quelques éléments, voici les principales nouveautés qui ont attiré notre attention.

Du point de vue des équipes IT…

 

1/ Fin des problèmes de version de JVM sur les postes clients et de compatibilité avec les autres applications

Le viewer HTML inclut maintenant toutes les fonctionnalités du viewer Java, qui n’est plus nécessaire.

Les personnes ayant déjà été en charge du déploiement, de la production ou du support d’une application SAP BI comprendront que c’est un point majeur !

2/ Optimisation de la maintenance, de la sécurité et des performances

  • Un nouveau droit permet d’autoriser ou interdire l’utilisation ou l’édition de SQL à la carte ou personnalisé sur une connexion spécifique (auparavant, le droit « Edit SQL » au niveau de l’application Web Intelligence s’appliquait sur l’ensemble des connexions et des univers)
  • Intégration d’un anti-virus scannant tous les fichiers déposés dans le File Repository
  • Possibilité de désactiver temporairement un utilisateur
  • Amélioration de la performance lors d’une recherche
  • Possibilité d’assigner un groupe de serveurs à un dossier ou à un groupe d’utilisateurs

3/ Inclusion des rapports et univers d’audit dans le contenu standard livré par SAP

 

4/ Migration en masse des rapports depuis les univers UNV vers le nouveau format UNX

 

info

SAP BI4.2 SP4 implique d’être sous Windows 10 ou Windows Server 2016, ou une version ultérieure.

 

Du point de vue des utilisateurs…

 

1/ Nouvelles interfaces pour la zone de lancement (ex Infoview) et pour Web Intelligence

  • Ces nouvelles interfaces adoptent le style FIORI, qui est une librairie graphique utilisée par SAP pour standardiser l’ensemble de ses interfaces, pensées pour le tactile et permettant une lecture et une analyse simplifiées des rapports.
  • Ces interfaces sont disponibles pour l’ensemble des rapports existants, sans migration.
  • Elles permettent notamment d’utiliser les filtres et la fonction drill (navigation dans les hiérarchies) de manière plus simple et conviviale.
  • Elles coexistent avec l’ancienne version des interfaces, à une autre URL.
  • La nouvelle interface n’est pas à iso-fonctionnalités par rapport aux viewer HTML, applet ou Rich Client ; en particulier, elle ne permet pas d’éditer les rapports.
  • SAP indique que l’édition des rapports dans la nouvelle interface est planifiée pour les prochaines versions.

Nouvelle Interface Web Intelligence :

webi

A noter que si c’est nécessaire, il est maintenant possible de visualiser un document de droite à gauche.

2/ Améliorations au niveau des graphes

Le paramétrage des graphes (ajout d’options pour personnaliser l’affichage) ainsi que le rendu des éléments personnalisés (ou custom elements qui sont des graphiques de type « data visualisation » disponibles depuis la version BI4.2) sont améliorés et trois nouveaux types de graphiques (jauges et tuiles) sont disponibles.

 jauges

Les éléments personnalisés sont également intégrés dans Live Office en tant qu’images.

3/ Amélioration de l’interface de développement des rapports WebIntelligence

  • Deux nouvelles fonctions disponibles dans le langage de création de variables au niveau de la manipulation des dates (DatesBetween et TimeBetween) pour calculer le nombre de périodes (de la milliseconde à l’année) entre deux dates
  • Possibilité de créer (dans le langage de création de variables) ses propres fonctions réutilisables

editeur_formule

En bref ! Les nouveautés du SP4 

  • Suppression de java pour la création des rapports Web Intelligence
  • Nouvelle interface (Fiori) plus conviviale et orientée tactile pour la zone de lancement et pour la visualisation des rapports Web Intelligence
  • Migration massive des rapports vers le nouveau format d’univers UNX
  • Deux nouveaux graphes (jauges et tuiles) et possibilité de créer ses propres fonctions de calcul sous Web Intelligence

 

Pour finir, de manière plus large, au cas où peut-être vous auriez attendu avant d’installer les derniers services packs, voici un rappel des nouveautés majeures de la version SAP BI 4.2 et ses différents services packs (jusqu’au SP3) :

  • Principe de la corbeille pour les documents publics
  • Web Intelligence : Ajout de commentaires et possibilité de partager des éléments (dans différents rapports et pour différents utilisateurs)
  • Disponibilité d’éléments personnalisés ou custom elements (graphiques de type « data visualization »)
  • Possibilité de filtrer les objets dans l’ugrade management tool
  • Parallélisation de l’éxécution pour les rapports multi-requêtes
  • Possibilité d’interroger les vues ou la base HANA
  • Cartes géographiques
  • Sets (SP3) : filtres complexes à sauvegarder et à réutiliser (plus d’infos dans l’article suivant : https://blogbi.asi.fr/2016/12/15/les-ensembles-en-bi-4-2-sp3-une-premiere-approche/)

info

A partir de l’installation du SP3, il est nécessaire de demander de nouvelles clés de licences.

 

Décidé(e) à upgrader votre plate-forme SAP BI4 ? Sachez que vous avez au plus tard jusqu’à fin 2018 (fin de la maintenance SAP BI4.1) pour le faire.

Ressources