Big data et visualisation : techniques et réglementation

Photo de Lukas provenant de Pexels

 

Brève introduction :

Le journal en ligne Mediapart titrait le 9 avril 2020 que Jean Castex aurait présenté en janvier dernier des projections « trafiquées » aux sénateurs concernant l’information sur l’évolution de la crise sanitaire liée à la Covid-19.

La polémique ouverte par Médiapart porte sur la présentation par le premier ministre d’une note expliquant la dynamique d’évolution de 2 variants de la Covid 19, « l’historique », et « l’anglais ».

Dans cette note figurait divers graphiques et courbes.

C’est de cette présentation visuelle d’informations qu’est née la polémique.

 Les schémas et courbes graphiques de la note d’information ayant été extraits d’un autre rapport selon les explications de Médiapart.

Le débat qui s’en évince porté par le média ouvre un intéressant débat sur la « décontextualisation » des vues d’un traitement de datavisualisation.

Les graphiques présentés dans la note d’information du premier ministre l’ont été dans un contexte « différent » par rapport à leurs supports premiers.

On touche ici à la particularité du traitement big Data de Datavisualisation.

Cette technique est un « langage visuel indexical», c’est-à-dire qu’il dépend entièrement de certaines caractéristiques du contexte dans lequel il est « produit » puis « présenté ».

Un traitement de données par la visualisation présente d’abord un sens.

Celui du producteur des « vues ».

Celui-ci propose une « objectivation » de ses observations.

Or l’observateur des vues n’est pas toujours un expert en science de l’information.

Il ignore souvent les enjeux qui sous-tendent la construction du « modèle de visualisation » qui lui est proposé.

Ce débat médiatique déconnecté de son contexte « politique », est une opportunité idéale dans une société de l’information qui cherche ses nouveaux repères en « Data Litéracy » pour contribuer à mieux comprendre une des techniques des traitements Big Data « la datavisualisation ».

 

La datavisualisation : une technique de Data science

Ce procédé particulier de visualisation de données s’est développé grâce aux technologies du Big Data.

Il devient dans la société de l’information un vecteur de plus en plus utilisé pour présenter et révéler des connaissances.

Dans notre quotidien, nous devenons dans nos interactions avec nos différents partenaires et/ou fournisseurs de services (banque, assurance, document de travail, information publicitaire, santé etc.), un « objet d’informations.

Nous n’avons que rarement conscience que la présentation de l’information visuelle est une prise de décision automatisée à visée prédictive.

Ce pour nous proposer « un choix » influencé par le « Nudge »

La datavisualisation ainsi présentée à un œil non averti, n’est donc pas toujours « friendly ».

Surtout si l’observateur n’a pas conscience d’être en présence d’un message préformaté, contextuel, et de caractère indexical.

 

La datavisualisation : bref historique

Un bref retour vers le passé de cet usage de l’information particulièrement « hype » aujourd’hui.

Ce fut bien le dessin et les signes qui permirent à l’homme de représenter sa pensée avant l’acquisition d’un langage.

Après l’essor de la cartographie, en 1786 William Playfair présente la première des séries statistiques illustrées.

Emerge alors un langage sémiotique proposant pour les besoins de l’activité commerciale pour la première fois , des groupes graphiques à barres, et à secteur

En 1970, les travaux de John Tukey professeur de statistiques publie son ouvrage « Exploraty Data Analysis ».

Il y pose les bases des méthodes d’analyse et de présentation des données par la visualisation.

Arrive ensuite le Big Data qui traite des ensembles de données de gros volumes.

Celles-ci sont difficiles à travailler avec les outils classiques de gestion de l’information.

La datavisualisation est donc devenue l’une des techniques les plus adaptées pour interpréter les résultats des observations des ensembles de données.

Ces techniques sont étudiées par les Digital humanities et les Cultural Analytics.

Ces 2 branches des sciences humaines étudient la manière dont les producteurs de données utilisent l’analyse statistique, pour modifier la lecture de l’information par l’image.

 

La datavisualisation :  Une technique de traitement

La datavisualisation n’est pas une infographie c’est-à-dire la représentation d’une image par une création numérique.

C’est un processus de traitement de données avec la finalité d’une présentation de l’information sous la forme visuelle.

Les domaines sont nombreux : (marketing, santé ; la logistique, informations financières et conseils de placement, recrutement, estimation de scoring bancaire etc)

La datavisualisation n’est donc jamais neutre car toujours issue d’une démarche active initiée par un responsable de traitement.

Ce dernier met en œuvre un « traitement automatisé » qui prendra les décisions programmées issues des modèles présentés à l’algorithme final de calcul de la « Vue », par exemple pour Python les outils « Seaborn ».

La datavisualisation a donc tout à voir avec le RGPD et son traitement doit être pensé dès sa conception avec la démarche « Privacy by design ».

De nombreux prestataire proposent des services automatisés de modèles de traitement à partir des données brutes sur des framework open source.

Les services de Google Cloud par exemple, proposent des tâches de traitement exécutables à partir de prestations « modélisées ».

Cette modélisation des phases de traitement est proposée par d’autres Cloud computing alliant stockage et puissance de calcul avec des offres freemium.

L’offre Freemium d’accès peut inclure ou pas la fourniture du SDK modèle de programmation pour les pipelines de connexion aux sources.

Ces propositions de « services externes » qui proposent des fonctions de modélisations pour préparer avec les données transférées la Datavisualisation en offre freemium ou pas se multiplient.

 Mais en aucune manière l’utilisation d’une « modélisation » ne dispense le responsable de traitement de sa démarche « Privacy by design » qui doit se conjuguer avec toutes les phases de préparation dataviz. 

Un traitement datavisualisation passe par 4 étapes principales :

  1. La collecte de données brutes
  2. La transformation des données
  3. La structuration à finalité visuelle
  4. La présentation de l’affichage des donnes en vues

 

Ces 4 tâches doivent être documentées, et inscrites au registre de traitement du responsable du traitement et de ses sous-traitants.

L’ensemble de ces intervenants doivent en plus se répartir contractuellement la chaîne de leurs obligations et responsabilités pour le respect du RGPD.

 Et de la Privacy ou vie privée des personnes concernées.

Un traitement Big Data agrège des volumes de donnés comprenant des flux de différentes provenances qui peuvent révéler de manière directe ou indirecte des données à caractère personnel.

Même si le responsable de traitement a fait le choix de travailler sur des modèles de donnés anonymisées, il n’est pas exempté pour autant de la démarche « Privacy by design du RGPD ».

Les techniques de curation de données nécessaires à la datavisualisation peuvent révéler dans les modèles des liens ou inférences qui permettent de réidentifier même indirectement des personnes ou groupes de personnes de la même segmentation.

Le Règlement UE 2018/1807 du 14/11/18 établissant un cadre applicable au « libre flux des données à caractère non personnel dans l’union européenne », a été interprété par le CEPD (Européan Data Protection Supervisor, ex G-29).

Pour le CEPD, le flux de données mixtes composé par des données non personnelles et à caractère personnel le soumettra en totalité au RGPD.

Les responsables de traitement, et les sous-traitants semblent ne pas toujours être suffisamment conscients de leurs obligations RGPD pour les traitements de datavisualisation de grands ensembles de données.

Nous vous proposons un modèle « Due diligence  data-RGPD » pour le traitement datavisualisation.

 

Datavisualisation : phase 1 du traitement, la collecte des données du modèle

Le responsable de traitement doit s’assurer de la provenance de la qualité intrinsèque des données utilisées ce qui suppose de vérifier :

L’existence de données à caractère personnel.

Le contrôle de la finalité et de la base juridique du traitement d’origine.

En matière de Big Data la ré information des personnes prévue par les dispositions de l’article 14 du RGPD est spécifique.

Vérifier les droits sur le fichier support utilisé pour l’extraction des données (auteur, droit d’accès etc.)

Décryptage des informations sur la donnée soit :

  1. Format général
  2. Que décide-t-on d’observer en rapport avec le résultat souhaité
  3. Détection des valeurs manquantes et réflexion sur leurs retraitements
  4. Découpage des mesures

 

A ce stade le responsable de traitement effectue des choix puisqu’il va paramétrer les éléments futurs du traitement automatisé.

Ces choix devront donc être documentés, ce avec toutes les parties intervenantes au traitement.

Cette première observation peut révéler certains biais potentiels quant à la qualité de la donnée qui peut influer sur le résultat.

Ce « Data management » de la donnée prépare le travail du « Data Scientist ».

La collaboration du Data manager est précieuse car il peut ainsi signaler si la collecte des données est confrontée à une ou plusieurs formes de bruit :

  1. Bruit d’origine matérielle
  2. Problématique qualitative des fonctionnalités des capteurs
  3. Approximation dans les mesures (données manquantes, mal écrites etc.)

 

Nous soulignons donc combien il est important pour le responsable de traitement de travailler avec une équipe aux compétences transversales.

Aux équipes Datas doit s’adjoindre l’accompagnement d’un juriste, de préférence avec une formation DPO qui apportera sa valeur ajoutée.

Donc à la suite de phase 1 de la préparation du traitement pourra être documentée la chaîne des obligations contractuelles de chaque partie :

  1. Fournisseur de la donnée
  2. Fournisseur des fonctions de Cloud computing
  3. Fournisseur de la technologie SDK pour les pipelines de données qui vont transférer les données sources vers la cible

 

L’analyse des obligations de ces différents intervenants permet de vérifier et garantir tout au long de la chaîne du traitement la régularité et l’intégrité des ensembles à traiter.

 

Datavisualisation : phase 2 du traitement ou la transformation de la donnée

Il s’agit ici des prestations de « Data Quality » par le Data manager qui consiste à charger les données dans les tables.

Par exemple il chargera les données dans Python avec pandas pour vérifier l’absence d’erreur (risque de crash, vérification des colonnes et des lignes etc.)

Puis les données seront nettoyées, formatées, dans des formats spécifiques en y rajoutant si nécessaire des métadonnées.

Cette seconde phase devra aussi être documentée sérieusement.

 

Datavisualisation : phase 3 du traitement ou la structuration visuelle

Concernant les phases 3 et 4 du traitement, ici le travail du Data Scientist va effectuer des choix techniques majeurs avec les conséquences juridiques les plus importantes.

La Convention 108+ du Conseil de l’Europe complète la définition de l’article 4 § 2 du traitement du RGPD.

Il s’agit des dispositions de l’article 2 (b) qui définit le traitement comme « l’application d’opérations logiques et/ou arithmétique à ces données »

Et aussi comme :

… « des opérations effectuées sur des données à caractère personnel au sein d’un ensemble structuré de données qui sont accessibles ou peuvent être retrouvées selon des critères spécifiques »

Dans cette phase3 du traitement il s’agit de préparer la structuration visuelle des ensembles de données.

 C’est-à-dire de décider de la manière dont on va les présenter pour leur faire « dire quelque chose » en général avec une visée prédictive.

Pour cette phase 3 qui est le cœur même du traitement il s’agit d’associer   dans les modèles des variables avec les éléments visuels représentés.

Les choix spécifiques sont à base de statistiques (liste simplement informative et non exhaustive)

  1. Calcul des moyennes
  2. Écart type ou standard déviation et quartiles, boxplot
  3. Choix entre Barchart, et Line charte
  4. Scorecard graph
  5. Nuage de points ou scatter plot

 

Aucun de ces choix techniques n’est « sans conséquence » sur l’appréhension visuelle du lecteur.

Le lecteur n’a pas toujours la culture « Data literacy » qui lui permette une interprétation de nature indexicale dont seul le responsable de traitement à les clés d’interprétation.

 

Datavisualisation : phase 4 du traitement l’affichage visuel

Cette phase consiste à rendre visible à l’écran par des algorithmes de diverses librairies comme par exemple en Python la fonction Seaborn.

L’affichage visuel et le produit de la réalisation des opérations de préparation des phases 1, 2 et 3.

La datavisualisation est une prise de décision automatisée

Le lecteur des résultats visuels est rarement conscient qu’il a fait l’objet d’un traitement Big Data qui peut impacter directement sa situation et/ou ses droits.

Au sens des dispositions de l’article 22 du RGPD, ce traitement s’analyse bien comme une prise de décision automatisée qui produit des effets juridiques « le concernant ou l’affectant de manière significative de façon similaire ». (Article RGPD 22 § 1)

Cette interprétation des conséquences de l’article 22 du RGPD mérite des explications qui ne peuvent être résumées dans le cadre de cet article en regard de leurs importances.

Le but de cet article était d’attirer l’attention des responsables de traitement de Datavisualisation en considérant celui-ci comme un traitement de données à caractère personnel à part entière avec ses conséquences.

 

Conclusion :

Un traitement de Datavisualisation doit donc faire l’objet d’un formalisme et être traité en mode projet par :

D’abord d’une définition précise du but et projet poursuivi,

Ensuite une définition de la finalité poursuivie en rapport avec un objectif visant à proportionner la légitimité du traitement.

Vérifier par une étude d’impact ou PIA (Privacy Impact Assessment) l’équilibre entre tous les intérêts en présence, publics ou privés mesurés aux droits et libertés en jeux ».

Elaboration d’une gouvernance des « traitements Datas » associée à une politique d’historisation des connaissances notamment en matière de technique datavisualisation.

Délivrance d’une information transparente au moment de la collecte des données sur le fait que la personne concernée peut être exposée à un traitement Big Data de type datavisualisation.

Mise en œuvre d’une politique de garantie des mesures appropriées pour la sauvegarde des droits et libertés des intérêts légitimes de la personne concernée conforme aux dispositions de l’article 22 § 3 du RGPD.

Tout ceci suppose une remise à plat pour les responsables de traitement sur la manière de rédiger leur police d’information sur le traitement des données à caractère personnel avec un travail de réflexion approfondie sur le rapport à la transparence du traitement qui passe par son explicabilité et son intelligibilité.

Pour les autorités européennes de contrôle, en France la CNIL, une non transparence du traitement sur un plan qualitatif est de nature à rendre celui-ci irrégulier, les enjeux sont donc très importants.

La qualité de l’information sur la transparence du traitement sera de plus en plus contrôlée pour les traitements Big Data .

Nous suivrons les évolutions des travaux des Digitales humanities et des Cultural Analytics par une veille d’articles au cas par cas.

 

 

Article rédigé à Marseille le 10 Avril 2021

Véronique RONDEAU ABOULY

Avocat au barreau de Marseille, DPO externe.

La rédaction de cet article a été conçue et organisée pour vous soumettre des informations utiles, des axes de réflexion pour une utilisation personnelle ou à visée professionnelle.

Il est mis à jour régulièrement mais dans un contexte réglementaire et jurisprudentiel évoluant, nous soulignons que nous ne pouvons être responsable de toute péremption du contenu, ou de toute erreur juridique et/ou inexactitude qui pourrait se révéler en fonction de l’évolution,  le lecteur voudra bien considérer qu’en tout état de cause pour une application personnalisée chaque cas est unique et que bien sûr le cabinet reste à votre disposition si vous avez une question précise à poser en lien avec cet article, nous nous ferons un plaisir de collaborer avec vous, n’hésitez pas à prendre contact ou à nous téléphoner.