‘Data Preparation’ : Cas pratique avec Talend Data Preparation

Pour se familiariser avec les outils de Data Preparation présentés dans mon précédent article, « Qu’est-ce que la ‘Data Preparation’ et à quoi sert-elle ? », nous allons aujourd’hui mettre en pratique un cas concret avec Talend Data Preparation. Nous ferons de même avec Trifacta dans un prochain article.

Dans cet exemple, les données ne sont pas très propres. Nous allons tenter de corriger les valeurs manquantes, éliminer les valeurs aberrantes, enrichir le jeu avec une autre source, et construire une adresse email à partir de colonnes existantes.

Etape 1 : Chargement des données

Lancer Talend Data Preparation :

Talend Data Preparation lancement

Créer un nouveau dossier de travail et le nommer ASI_PREPA :

ASI_PREPA

Ajouter 2 Dataset (sources) :

  • le premier (SALARIES) servira de flux primaire
  • le second (DOMAINE_COMPAGNIE) contient 2 colonnes (nom et mail de l’entreprise). La jointure avec le premier se fera sur le champ ‘company’.

Data sets

Data-preparation-datasets

Accéder au dossier ASI et cliquer sur ‘ADDPREPARATION’. Ajouter le flux primaire SALARIES, et confirmer :

ADDPREPARATION

Etape 2 : Découverte des données

Nous accédons à l’interface principale :

Interface_data-preparation

Cette interface se décompose en 4 volets principaux :

  • à gauche la recette,
  • au milieu un tableur qui contient les données,
  • en haut à droite les fonctions pouvant être appliquées sur les données
  • en bas un volet de data Profiling

Une barre de Data Quality est présente sur chaque colonne avec 3 couleurs :

Verte (valeurs valides), orange (valeurs invalides) et blanche (valeurs nulles). En cliquant sur chaque tranche, nous accédons aux actions qui peuvent être appliquées à cette masse de données.

Data quality

En cliquant sur une colonne, nous avons accès au menu de Data Profiling où se trouvent 4 onglets qui permettent de mieux comprendre les données :

data profiling

Etape 3 : Nettoyage

Nous allons éliminer les valeurs aberrantes (invalides) et les valeurs nulles :

  • Cliquer sur une colonne
  • Appliquer les actions (Delete the Rows with Empty Cell) et (Clear the Cells with Invalid Values)
  • Appliquer ces actions sur chaque colonne du jeu de données.

Supprimer_invalid-cell

Suppression_empty-cell

Nous allons maintenant supprimer les espaces de toutes les colonnes. Talend a dédié une fonction pour faire cela :

  • Cliquer sur la colonne
  • Chercher la fonction Remove Whitespaces (), et l’appliquer pour toutes les colonnes

RemoveWhitespaces

Nous allons créer deux nouvelles colonnes qui contiendront respectivement le firstname et lastname de la personne :

Le but étant de tout mettre en lettres minuscules. Nous les appellerons respectivement Email_Firstname et Email_Lastname. Pour cela :

  • Cliquer sur la colonne puis sur Duplicate Column
  • Cliquer sur Rename Column

First Name et last nameL’étape suivante consiste à transformer les nouvelles colonnes créées en minuscules :

  • Sélectionner les deux avec un Ctrl+Clic
  • Chercher dans la palette les fonctions Change Style to Lower Case, et l’appliquer sur les deux colonnes.

Lowercase

Maintenant que les deux colonnes sont construites, nous devons les fusionner pour avoir le format firstname_lastname :

  • Sélectionner la colonne Email_First_Name
  • Chercher la fonction Concatenate dans la palette
  • Paramétrer la concaténation et appliquer le changement

concatenate

  • Renommer la colonne
  • Supprimer les colonnes en plus

Etape 4 : Enrichissement

Nous allons, dans cette étape, enrichir le jeu de données avec un nouveau DATASET, afin d’extraire le nom du domaine de l’entreprise pour chaque salarié :

  • Sélectionner la colonne ‘company’
  • Cliquer sur l’icône de jointure (que vous verrez ci-dessous)
  • Choisir le Dataset DOMAINE_COMPAGNIE puis valider

jointure look

 

LookupUne fois le fichier chargé, la colonne de jointure est en bleu et les colonnes à garder avec une case à cocher :

Join

  • Confirmer, une nouvelle colonne apparaît alors : ‘EMAIL_DOMAIN’

Pour obtenir la colonne Email sous la forme firstname_lastname@Email_domaine :

Il ne reste maintenant plus qu’à concaténer la colonne ‘Email_First_Name_Last_Name’ avec la nouvelle colonne ‘EMAIL_DOMAIN’ avec un @ comme séparateur, pour obtenir la colonne Email sous la forme firstname_lastname@Email_domaine.

Puis renommer la nouvelle colonne ‘EMAIL’.

EMAIL-FIRST-NAME-EMAIL-LAST-

  • Supprimer les colonnes en plus

Le jeu de données est propre avec l’email de chaque salarié.

Email

Etape 5 : Validation et publication

Talend Data Preparation version gratuite permet d’exporter les résultats sous les formats Excel, CSV, Tableau.

Export

Dans la version entreprise, Talend annonce que la recette pourra être intégrer à un Job Talend.

Job Talend

Nous avons maintenant terminé l’atelier technique de Data Preparation avec Talend Data Preparation, rendez-vous dans un prochain article pour l’atelier Trifacta !

Migration d’une XI 3.1 vers le SP5

Si vous devez procéder à la migration d’une XI 3.1 vers le SP5 : attention car avec le SP5, la base de données par défaut pour le CMS passe de MySQL à SQL Anywhere !

Si vous utilisez la base par défaut, le programme de mise à jour peut installer SQL Anywhere et migrer automatiquement le CMS existant vers la nouvelle base (création de la database, création du DNS, migration et configuration). Si vous choisissez de migrer et d’utiliser SQL Anywhere, alors les futurs patchs et services pack mettront automatiquement à jour la structure de la base CMS. Dans le cas contraire, c’est à vous de mettre à jour manuellement la base MySQL…

En réalité, la migration est automatique mais pas son lancement… Il faut lancer le programme d’installation en lui précisant de faire la migration automatiquement. Pour cela, il existe 2 méthodes possibles :

  • Méthode 1 : Passer un paramètre lors de l’exécution du setup

– Ouvrir une fenêtre de commande et se placer dans le répertoire d’installation
– Lancer la commande suivante : setup.exe AUTO_MIGRATE_TO_SQLANYWHERE=1

  • Méthode 2 : Modification du fichier .msi

– Créer une copie du fichier BusinessObjects_SP_5.msi
– Lancer le programme Orca (éditeur de fichiers msi :  http://www.microsoft.com/en-us/download/details.aspx?id=6510)
– Ouvrir le fichier BusinessObjects_SP_5.msi
– Chercher l’entrée « Property » et positionner le paramètre AUTO_MIGRATE_TO_SQLANYWHERE à 1
– Sauvegarder le fichier
– Lancer le setup.exe

Dans le cas d’une migration vers SQL Anywhere, il est recommandé de conserver la base MySQL existante dans le cas où il serait nécessaire de désinstaller le SP5.

Il n’y a pas de changement pour la base de données d’Audit. Vous pouvez la passer sous SQL Anywhere mais vous devez tout faire manuellement (création, copie et configuration).

Il n’y a pas d’impact si vous utilisez une autre base que MySQL.

Je vous rappelle que le SP5 est disponible en installation complète ou en patch. Pour passer le patch, il faut impérativement déjà être en SP3 ou SP4.

%d blogueurs aiment cette page :