Les outils de la qualité des données

Qualité des données

Une donnée est de bonne qualité lorsqu’elle répond aux attentes et aux besoins des consommateurs, la qualité de la donnée dépend donc du contexte d’utilisation et des besoins des utilisateurs. La gestion de la qualité des données est un programme, pas un projet. Les actions doivent s’inscrire dans la durée et selon une stratégie d’amélioration continue. Les actions d’amélioration de la qualité des données doivent être réalisées à travers le cycle de vie de la donnée grâce aux outils ci-dessous :

Le contrôle de la qualité des données grâce aux dimensions/ reporting qualité 

Les dimensions de la qualité sont des éléments mesurables de la qualité des données. Ces mesures sont calculées à partir de caractéristiques/questions importantes pour le métier. Par exemple :

La complétude 

Le jeu de données/tables/colonnes contient-il des valeurs nulles ou erronées ? Indicateur : Taux de données non nulles.

La cohérence

Peut-on lier les données entre deux sources ? Les données sont-elles cohérentes/ identiques entre deux sources (CRM/facturation) ? Les données sont-elles cohérentes dans un jeu de données ? Indicateur : Taux de données équivalents entre deux sources.

La validité

Les données sont-elles validées et cohérentes (format, domaine de valeur, définition) ? Respectent-elles un comportement « Normal » attendu ? Indicateur : Taux de données conformes à une formule.

La fraîcheur

Les données sont-elles à jour ? Indicateur : Taux de données mises à jour à j+2.

L’unicité

Les enregistrements sont-ils identifiables de manière unique ? Indicateur : Taux de valeurs uniques.

Etc.

 

La résolution des problématiques de données

La résolution des problématiques de données consiste à recenser les problèmes de données, effectuer une priorisation des cas à traiter, analyser les causes racines et les impacts avec les experts métiers/SI, proposer, piloter et suivre le plan de remédiation. Les acteurs identifient des opportunités d’amélioration de la qualité des données par l’optimisation des processus et des outils.

Le profiling et l’analyse des données

Le profiling est une forme d’analyse de données utilisée pour inspecter la donnée et ses qualités intrinsèques. Le profiling utilise les techniques statistiques pour découvrir la structure, le contenu et la qualité des données.

Le traitement de la qualité des données 

Les actions liées aux traitements de la qualité des données sont : le nettoyage, le formatage, le filtrage, la conversion, la transformation, la consolidation, l’enrichissement…

Découvrez sur le site web ASI notre fiche référence client : Mise en place et pilotage du dispositif de Qualité des Données chez KLESIA.

N’hésitez pas à nous contacter pour tous renseignements à ce sujet : asicom@asi.fr / 0806 700 800 (prix d’un appel local).

GDPR / RGPD – Qu’est-ce que le PIA (Privacy Impact Assessment) ?

L’analyse d’impact sur la protection des données (Privacy Impact Assessment, PIA ou DPIA, cf. art. 35 du [RGPD]) est un outil important pour la responsabilisation des organismes. C’est une bonne pratique fortement recommandée, et obligatoire dans certains cas, qui aide à construire des traitements de données respectueux de la vie privée et à démontrer leur conformité au règlement général sur la protection des données (notion de responsabilité ou d’accountability en anglais, cf. art. 25 du [RGPD]). C’est un prérequis à la mise en œuvre d’une stratégie de « Privacy By Design » sur chaque nouveau projet.

La démarche de conformité mise en œuvre en menant un PIA repose sur deux piliers :

Conformité RGPDLes principes et droits fondamentaux, « non négociables », qui sont fixés par la loi et doivent être respectés, quels que soient la nature, la gravité et la vraisemblance des risques encourus :

La légitimité de la finalité ; la licéité du traitement ; la minimisation des données ; la qualité des données ; la durée de conservation ; le respect des droits des personnes (information, accès, rectification, opposition, droit à l’oubli, limitation, portabilité, consentement) ; les transferts de données ; les sous-traitants.

La gestion des risques sur la vie privée, qui permet de déterminer les mesures techniques et d’organisation appropriées pour protéger les données :

Un risque est un scénario hypothétique qui décrit un événement redouté et toutes les menaces qui permettraient qu’il survienne. Plus précisément, il décrit : Comment les sources du risque pourraient exploiter les vulnérabilités du système dans le cadre de menaces et permettre à des événements redoutés de survenir sur des données à caractère personnel et provoquer des impacts sur la vie privée des personnes concernées.

Exemple : La base d’enregistrements de vidéosurveillance des clients est vulnérable car il n’existe pas de gestion avancée des droits d’accès à cette base de données sensibles. L’analyse d’impact consistera donc à comprendre comment un collaborateur pourrait utiliser ses accès pour analyser les habitudes de vie de quelques clients fortunés à partir d’enregistrements de vidéosurveillance et vendre ces informations à des individus malveillants qui auraient l’intention de cambrioler ces clients ?

Le niveau d’un risque est estimé en termes de gravité (l’ampleur du risque au regard du préjudice pour l’entreprise et l’impact sur la vie privée des clients) et de vraisemblance (la possibilité que le risque se présente au regard des vulnérabilités du système et des sources du risque).

Cette analyse approfondie permet donc d’identifier les mesures de sécurité à mettre en œuvre pour garantir la protection des données personnelles.

Pour accompagner les entreprises dans cette démarche d’analyse, la CNIL met à disposition un logiciel libre PIA (https://www.cnil.fr/fr/outil-pia-telechargez-et-installez-le-logiciel-de-la-cnil).

Nous nous tenons à votre disposition pour tous renseignements à ce sujet : asicom@asi.fr / 0806 700 800 (prix d’un appel local).

RGPD / GDPR – Les 7 Chantiers prioritaires du projet GDPR

RGPD Europe logo

Le nouveau règlement Européen GDPR / RGPD aura un impact assez fort sur les processus de traitement des données personnelles dans l’Union Européenne et prendra effet le 25 mai 2018.

Toutes les entreprises Européennes et non Européennes qui offrent des services ou des produits en Europe sont concernées par la réglementation. Elles doivent donc être conformes au règlement à sa date de prise d’effet. Beaucoup d’entreprises ont récemment commencé à se préparer pour le GDPR et ne seront pas totalement prêtes à cette date alors que ce projet d’envergure nécessite énormément de temps, de ressources (juridique, business, IT, ressources humaines…) et de planification (objectifs, responsabilités, livrables, prérequis, ressources, durée, budget alloué…).

Voici 7 grands chantiers du projet GDPR à ne pas manquer :

L’organisation

Mettre en œuvre l’organisation pour assurer les missions du « Data protection Officer » au sein de l’entreprise, identifier les points de contacts (IT, ressources humaines, juristes, product owner…), définir les politiques, processus et procédures utiles au maintien de la conformité.

La mise en conformité des processus de traitement de la donnée

Réaliser la cartographie des données personnelles, identifier les parties prenantes impliquées dans la collecte, le stockage, la transformation, l’usage des données et effectuer un « Gap analysis » entre les exigences réglementaires et la réalité de l’entreprise, identifier les risques sur la vie privée grâce à l’analyse d’impact, adopter le « Privacy By Design » pour les nouveaux projets.

La gestion des droits des personnes et du consentement

Mettre en place un processus de gestion des droits des personnes et du consentement, s’assurer que le système d’information est en mesure de répondre aux exigences.

Les mécanismes de sécurité et de protection des données

Mettre en place toutes les mesures suffisantes au regard des risques identifiés pendant l’analyse d’impact pour garantir la protection des données personnelles, mettre en place une organisation pour détecter et réagir efficacement à une fuite de données conformément au GDPR, s’assurer que les transferts de données en dehors de l’Union Européenne sont couverts par la réglementation.

La politique d’archivage et de conservation des données

Cette exigence incontournable existait avant le nouveau règlement Européen, c’est une exigence clé qui ne doit pas être négligée. Mettre en place une politique d’archivage et conservation des données personnelles, s’assurer que le système d’information est en alignement avec cette politique.

La gestion des sous-traitants

Effectuer l’inventaire de tous vos sous-traitants, s’assurer qu’ils mettent en œuvre les mesures nécessaires pour répondre aux exigences réglementaires et ajouter les clauses contractuelles garantissant le respect des exigences du GDPR, actualiser le processus d’achat afin de vous assurer que les futurs sous-traitants soient « GDPR Compliant » avant toute signature de contrats.

La formation / communication / sensibilisation des collaborateurs et des sous-traitants

Assurer une sensibilisation des collaborateurs sur la prise en compte du GDPR au sein de l’entreprise et les attendus les concernant.

Pour répondre aux exigences d’« accountability », toutes ces actions doivent bien entendu être tracées, documentées et auditables.

Nous nous tenons à votre disposition pour tous renseignements à ce sujet : asicom@asi.fr / 0806 700 800 (prix d’un appel local).

Vidéo | GDPR, quels impacts sur les entreprises ?

ASI vous propose de découvrir la vidéo consacrée à la GDPR réalisée par ses experts :

Qu’est-ce que la GDPR ?

La GDPR, ou General Data Protection Regulation, est la directive européenne sur la protection des données personnelles qui entrera en vigueur le 25 mai 2018. Elle a pour objectif de donner un cadre éthique à toute collecte et utilisation de Données à Caractère Personnelle – les fameuses DCP.

Les 29 pays signataires ont prévu une application mondiale de cette directive pour l’ensemble des données des ressortissants de l’union européenne et de lourdes amendes pour les infractions, pouvant atteindre 4% du chiffre d’affaire global d’une entreprise avec un maximum de 20 millions d’euros.

Quel impact sur les entreprises ?

La GDPR accorde des droits aux personnes physiques (droit à l’oubli, à la modification des données, à la réparation et au contrôle de leur portabilité) que les entreprises devront respecter.

Les entreprises, comme leurs sous-traitants, seront tenues de réfléchir à la protection des données personnelles dès la conception, voire de réaliser une étude d’impact préalable à faire valider par l’autorité de contrôle – la CNIL en France – et de tenir un registre de toute utilisation et de tous traitements sur ces données.

Elles devront, dans la majorité des cas, nommer un DPO – un Data Privacy Officer – pour garantir la bonne application de cette directive et en assurer la transparence.

Les entreprises devront surtout obtenir le consentement explicite des personnes pour chaque traitement effectué, ce qui risque de changer beaucoup de pratiques actuelles.

Que faire pour s’y préparer dès aujourd’hui ?

Comme il est évident que tout le monde ne pourra pas respecter l’ensemble des dispositions de cette directive dans un an, il est important de montrer dès à présent que votre entreprise a bien pris conscience du sujet et met en oeuvre une démarche spécifique.

Vous devez rapidement monter une équipe transverse (métiers, techniques et juridiques) en charge du projet de mise en conformité afin de cartographier l’ensemble des données personnelles internes et externes que vous manipulez et évaluer, pour chaque traitement, les risques de « perte » des données pour prioriser vos actions.

ASI vous propose de vous aider dans cette démarche, nous sommes à votre disposition à l’adresse asicom@asi.fr ou par téléphone au 0806 700 800 (gratuit + prix d’appel).

L’Open Data ou comment contextualiser nos « insights »

Nous vous invitons à lire l’article L’Open Data ou comment contextualiser nos « insights » rédigé par Régis Marc sur notre blog ASI 360.

Il y rappelle ce qu’est l’Open Data, indique quels acteurs partagent des données et quel est leur intérêt à le faire.

Il donne aussi quelques exemples simples de réutilisations…

Bonne lecture !

 

 

Connaissez-vous le Folder95 sur une plateforme SAP Business Objects ?

Bonjour,

Un rapide article aujourd’hui pour vous parler de la sécurité SAP BusinessObjects et plus particulièrement la livraison d’un environnement à un autre depuis la CMC à l’aide de l’outil de gestion des promotions.

promotions_sap_bi42

Vue de la gestion des promotions dans la CMC

Il faut être relativement prudent lorsqu’on livre les éléments sur un environnement, en ne choisissant que le nécessaire : document, univers (sans les connexions !) sont les éléments les plus souvent livrés.

Mais il peut aussi arriver qu’il soit nécessaire de livrer utilisateurs, groupes et sécurité associée. Et c’est à cette occasion que j’ai fait la découverte du « Folder95 ». En effet, quelle ne fut pas ma surprise quand, après une livraison, tous les utilisateurs – sauf les membres du groupe administrateur – avaient perdu leurs accès : pas de documents, pas d’univers … aïe !

Un rapide tour de la plateforme indique que la sécurité des différentes racines (connexions, univers, etc.) n’était plus existante pour le groupe « Tout le monde ».

sap_bo_securite_niveau_superieur

Sécurité de niveau supérieur dans BO

Simple me direz-vous ? On la ré-applique partout ! Mais non, ce n’est pas suffisant. Les utilisateurs n’ont toujours pas accès aux univers et ne peuvent pas rafraîchir les documents.

Il faut donc se référer à la note SAP 2017435 pour découvrir qu’il existe une racine, au-dessus de la racine !

Et pour remettre les droits c’est beaucoup moins sympathique. Rendez-vous sur le serveur BO :

  • Arrêter le SIA
  • Faire un backup du CMS (au cas où)
  • Démarrer le CMS en mode « serverconsole » en utilisant la commande :
E:\SAP\SAP BusinessObjects\SAP BusinessObjects Enterprise XI 4.0\win64_x64>cms.exe -port "7400" -dbinfo "E:/SAP BusinessObjects/SAP BusinessObjects Enterprise XI 4.0/win64_x64/_boe_BOBJREPO.dbinfo" #name "BOBJREPO.cms" -serverconsole
  • Taper la commande
acl 95
  • Le message suivant est renvoyé
Object has no ACL
  • Taper ensuite
Setright 1 95 3 ANY this G
  • Puis à nouveau
acl 95
  • Le message « Everyone group Granted View for any object type for this object » doit être renvoyé.
  • Terminer par un simple :
Quit

Puis relancer le SIA… et tout est rentré dans l’ordre ! Ouf !

Bonne semaine et à bientôt !

 

‘Data Preparation’ : Cas pratique avec Trifacta Wrangler

Pour continuer à se familiariser avec les outils de Data Preparation présentés dans l’article « Qu’est-ce que la ‘Data Preparation’ et à quoi sert-elle ? », et maintenant que nous avons découvert le fonctionnement de Talend Data Preparation, nous allons aujourd’hui mettre en pratique un cas concret avec Trifacta Wrangler.

Dans cet exemple, les données ne sont pas très propres. Nous allons tenter de corriger les valeurs manquantes, éliminer les valeurs aberrantes, enrichir le jeu avec une autre source, et construire une adresse email à partir de colonnes existantes.

Etape 1 : Chargement des données

Lancer Trifacta Wrangler :

Interface Trifacta Wrangler

Dans la barre horizontale haute, nous remarquons les trois Eléments essentiels, FLOWS (Flux), DATASETS (Sources), RESULTS (Résultats) ainsi que l’interface de chaque élément.

Créer un nouveau Flux de travail et le nommer Flux_ASI :

Create flow - flux Trifacta Wrangler

FluxASI

Ajouter les DATASETS (sources), soit par drag & drop (glisser-déposer), ou en cliquant sur Choose File :

import_dataset-Trifacta

  • le premier (SALARIES) servira de flux primaire
  • le second (DOMAINE_COMPAGNIE) contient 2 colonnes (nom et mail de l’entreprise). La jointure avec le premier se fera sur le champ ‘company’.

Datasets

Etape 2 : Découverte des données

Une fois le DATASET ajouté, Trifacta propose un premier tableau de bord :

Il permet de voir la constitution du flux (dans le volet à droite, nous pouvons voir un premier aperçu des données ainsi que les premières étapes de la recette).

Espace_Flux

  • Dans le volet à droite, cliquer sur ‘Edit Recipe’ pour aller à l’interface principale

Voir_données_Edit-recipes_Trifacta

L’interface principale propose un tableur pour visualiser les données :

A droite, le volet permet de voir la recette. En bas, un builder contient l’ensemble des fonctions de transformations.

Interface_prin

Pour chaque colonne, une barre de Data Quality est présente, avec trois couleurs : verte (valeurs valides), rouge (valeurs invalides) et noire (valeurs nulles). En cliquant sur chaque tranche, il est possible d’accéder aux actions pouvant être appliquées à cette masse de données. Dans notre cas, nous allons accéder à la première colonne, et voir les détails de la colonne.

Détail_Col

En cliquant sur ‘Column Details’, nous aurons un tableau de bord de Data Profiling de cette colonne.

Data_Profiling

Etape 3 : Nettoyage

Nous allons éliminer les valeurs aberrantes (invalides) et les valeurs nulles :

Nous allons commencer par les valeurs nulles.

  • Cliquer sur la partie noire de la barre de Data Quality, Trifacta suggère un ensemble d’actions
  • Choisir l’action Delete rows where isMissing ([id])
  • Cliquer sur ‘Add to Recipe’. Il est également possible de cliquer sur ‘Modify’ pour avoir une transformation plus adaptée. La force de Trifacta est de pouvoir ajouter des expressions régulières et combiner plusieurs fonctions.

Supp_missingPour les valeurs aberrantes :

  • Cliquer sur la partie rouge de la barre de Data Quality
  • Appliquer l’action Delete rows where ismismatched([id], [‘Integer’])
  • Cliquer sur ‘Add to Recipe’

actions_abberantes

  • Répéter ces actions pour toutes les colonnes du jeu de données.

Nous allons maintenant supprimer les espaces de toutes les colonnes :

  • Sélectionner les colonnes concernées avec Ctrl+Clic
  • Cherche la fonction Remove whitespaces() qui se trouve dans le menu ‘Format’, et l’appliquer pour toutes les colonnes

remove whitespaces

Nous allons créer deux nouvelles colonnes, qui contiendront respectivement le firstname et lastname de la personne afin de les mettre en minuscule :

Nous allons les appeler respectivement Email_Firstname et Email_Lastname :

  • Cliquer sur le menu déroulant de la colonne
  • Dans Format, chercher la fonction to lowercase ()
  • Dans le builder des options de paramétrages, choisir la formule, et renommer la nouvelle colonne Email_First_Name.

lowercase

  • Répéter cette action pour la colonne last_name

Etape 4 : Enrichissement

Nom de domaine de l’entreprise

Nous allons, dans cette étape, enrichir le jeu de données avec un nouveau flux, afin d’extraire le nom du domaine de l’entreprise pour chaque salarié :

  • Cliquer sur le menu déroulant de la colonne company
  • Choisit Lookup, une nouvelle fenêtre apparait pour choisir le DATASET concerner par la jointure
  • Choisir le DATASET ‘Domaine_Compagnie’

lookupzoom

L’étape 2 du Lookup consiste à choisir l’attribut de jointure dans le DATASET secondaire :

  • Choisir ‘company’
  • Exécuter le Lookup

Look_up_col

Une fois le fichier chargé, nous allons construire la colonne ‘EMAIL’.

Comme Trifacta propose de faire nos propres formules, nous allons sélectionner les trois colonnes concernées, puis nous allons appliquer la fonction Merge() sur les trois colonnes avec un tiret entre le firstname et lastname et un @ entre la colonne résultante et le domaine_compagny.

La figure suivante montre comment nous avons pu combiner plusieurs fonctions pour construire une formule.

Dans notre exemple, nous avons fait plusieurs étapes en une seule grâce à la formule suivante :

MERGE ([MERGE([Lower(first_name),Lower(last_name)], ‘-’),email_domain], ’@’).

combiner-fonctions-formule

Etape 5 : Validation et Publication

En haut à droite, Trifacta permet de générer le résultat des transformations.

Validation Trifacta

Avec la version gratuite, il est possible d’exporter les résultats sous trois formats : CSV, JSON et TDE.

generate results trifacta

Le résultat sera publié dans le logiciel lui-même. Pour le voir, cliquer dessus afin d’avoir un tableau de bord résumant le résultat obtenu.

results summary trifacta

Conclusion

L’arrivée de la Big Data engendre forcément une explosion d’outils qui permettent aux entreprises de tirer profit de leurs données. Les éditeurs de ces solutions essayent de fournir des outils simples permettant à l’utilisateur sans compétences informatiques de se les approprier facilement.

Le domaine de la data preparation suit cette logique de vulgarisation (démocratisation). Cependant les outils qui permettent de le faire sont encore jeunes. Les solutions ne sont pas complètes ; plusieurs défis attendent les éditeurs.

La data preparation pourra permettre aux entreprises de passer plus de temps dans l’analyse des données, permettant d’accélérer les projets et d’avoir de meilleurs résultats.