Traitements Big Data et RGPD : quelles normes légales pour l’ingénierie

Crédit Image : Gerd Altmann de Pixabay libre de réutilisation

 

Brève introduction :

2020 a vu un accroissement considérable des besoins des entreprises en Business Intelligence (BI).

La BI ou en français « l’informatique décisionnelle » est l’art de pouvoir analyser de très gros volumes de données stockées dans des « Data Warehouse ou entrepôts de données (EDD) ».

 La Business Intelligence fait appel au raffinage ou accélération du traitement de gros volumes de données par divers processus alliant technologies et compétences en Data science.

Il s’agit d’obtenir des informations les plus pertinentes possibles pour permettre aux entreprises de prendre leurs décisions de manière rapide.

Ceci nécessite de négocier l’accès à des plateformes cloud de stockage de données avec des prestations de « Data sharing ».

L’accès à ces espaces de stockage et/ou de partage des données n’est qu’une des conditions du succès d’un traitement Big Data.

Le partenaire doit pouvoir mettre à disposition la « bande passante » ou « puissance de travail » qui permet la rapidité des requêtes du traitement.

Sans négliger pour toutes les phases du traitement stockage compris la garantie de l’intégrité des données (exactitudeexhaustivité, et cohérence globale).

Ces ensembles de mégadonnées intègrent des contenus divers ; L’Internet des objets (Iot), des données ouvertes, le Web sémantique, etc.

Outre la technologie, la démarche contractuelle en Big Data doit intégrer une « approche par conception » avec des solutions « by design ».

Or l’approche « by design » du traitement Big data n’implique pas que le seul respect du RGPD.

La conception du traitement doit respecter aussi la Vie privée ou Privacy des individus et leurs droits fondamentaux.

est d’abord régulée par la Convention européenne des droits de l’homme (article 8).

Ensuite par les articles 7 et 8 de la Charte des droits fondamentaux.

Enfin par la Convention 108 du Conseil de l’Europe du 28 janvier 81.

L’application cumulée de ces normes est régulée par la jurisprudence de la Cour Européenne des droits de l’homme.

La Convention sur la protection des données du Conseil de l’Europe (Convention 108 +) est un instrument international de régulation contraignante en matière de protection du Droit à la vie privée et des données personnelles.

Les acteurs « Datas » négligent à tort de s’intéresser à cette norme de droit international qui se superpose au RGPD.

Son objectif est de protéger la dignité humaine et son intégrité à l’ère numérique.

La Convention 108+produit de nombreux rapports en lien avec la protection des données.

Ses travaux font référence dans des domaines très importants tels que l’intelligence artificielle, les problématiques de santé, les médias et la vie privée, le Big data.

Pour ces traitements de données de grande taille ou « Mégadonnées », son comité directeur a édité en 2017 des lignes directrices.

Les responsables de traitement et sous-traitants des traitements Big Data doivent s’assurer que leurs clauses contractuelles respectent ces principes.

A défaut, leur responsabilité contractuelle voir délictuelle pourrait être engagée.

Nous vous proposons un commentaire des 9 principes directeurs de ces lignes directrices.

1er principe : Une utilisation éthique et socialement responsable des données :

Le traitement Big Data est influencé par des facteurs contextuels issus notamment de la technologie employée.

Ceci implique pour le responsable de traitement de réfléchir à une étude d’impact dès la conception du projet.

D’abord il vérifie les objectifs du traitement par rapport aux Chartes internationales des droits de l’homme et des libertés fondamentales.

Ensuite il évalue l’évolution de la jurisprudence sur ces normes d’application en rapport avec les usages de la société de l’information.

Enfin il documente la faisabilité du projet par rapport à cette revue juridique.

Un projet Big Data repose sur la constitution d’un modèle d’analyse qui implique la collaboration avec des utilisateurs professionnels.

Le responsable de traitement doit vérifier et tracer le cycle de vie des données qu’il se propose d’utiliser.

Son étude d’impact pour la sélection de l’ensemble des données doit inclure une démarche Data Quality « by design ».

 Avec aussi une vérification de la provenance des données.

 Avec le contrôle de la titularité des droits d’utilisation par l’indexation des métadonnées d’identification.

La démarche Data quality « by design » emporte la vérification de techniques de nettoyage conformes pour le rapprochement et la correspondance des données.

2e principe : Politiques préventives et évaluation des risques du traitement

Le traitement Big data utilise et combine différentes technologies.

La finalité sera d’extraire de différentes bases de données des « features models » pour une analyse des différents aspects d’un individu.

Les données le concernant sont traitées en plusieurs étapes qui se recoupent et révèlent des informations de plus en plus « larges » et « riches ».

D’abord par le système d’acquisition des données le concernant qui va enregistrer et hiérarchiser toutes les interactions de la personne avec différents services reliés à un fournisseur (Web, mobile, contacts directs en agence ou magasin).

Ensuite par la technique de « réconciliation » ou les données d’une même personne sont rassemblées autour d’une clé d’appariement unique.

Enfin un processus de Data cleasing ou nettoyage des données va accroître la cohérence et la fiabilité et la valeur des informations.

 Toutes ces étapes importantes confèrent à l’information traitées sa « valeur informationnelle » donc économique.

Plus ces différentes analyses seront pertinentes, plus la technologie Big data permettra des analyses agrégées et sécurisées en temps réel.

L’étude d’impact doit aussi inventorier les risques sur la vie privée et les droits fondamentaux si le traitement prend une dimension collective.

C’est le cas du clustering en apprentissage non supervisé pour identifier notamment les inférences de réseaux.

Or si l’offre de service et/ou son prix d’achat ne tient compte que du groupe d’appartenance prédit par la décision algorithmique.

Alors pour enrayer tout risque d’atteinte à l’égalité de traitement et à la non-discrimination les lignes directrices invitent les responsables du traitement à développer des solutions « by design » et « by default ».

Cette démarche devra être continue tout au long du traitement et doit être documentée.

3e principe : Limitation des objectifs et transparence :

Il s’agit ici d’appliquer les principes de l’article 5 du RGPD sur la finalité du traitement.

Dans le contexte du Big Data le respect de cette finalité couvre également la garantie de la Privacy des personnes.

Le responsable de traitement doit énoncer de manière transparente et intelligible dans son évaluation « by design » ses engagements.

Le traitement peut mettre en œuvre des secrets garantis par la loi.

En ce cas le responsable de traitement rédigera une annexe confidentielle et non publique dans son rapport d’évaluation destinée aux seules autorités de contrôle.

4e principe : L’approche par conception :

Il s’agit de surveiller toutes les phases du traitement entre les différents intervenants responsables de traitement et sous-traitants.

Chacun doit participer et interagir en particulier avant l’utilisation des données à grande échelle pour tester et documenter des solutions adéquates de conception dérivée « by design » sur une quantité limitée de données.

5e principe : Le consentement

Lorsqu’il est requis ce consentement doit être donné dans les conditions des articles 4 § 11 et 7 du RGPD c’est-à-dire qu’il doit être libre, spécifique, éclairé et univoque.

La validité du consentement est strictement corrélée à la qualité de la transparence des informations sur le traitement.

En conséquence le responsable de traitement ne devrait pas hésiter à fournir au moyen d’une interface une simulation des effets de l’utilisation des données avec son impact potentiel sur les droits de la personne concernée.

Alors que ces lignes directrices datent de 2017, cette pratique de la transparence par la « Smart information » est loin d’être généralisée.

En regard du développement des technologies de la société de l’information les autorités de contrôle seront plus vigilantes.

 A brève échéance la conformité du traitement Big Data s’appréciera aussi en regard de la qualité du contenu d’une Smart information.

6e principe :  L’anonymisation

Le responsable du traitement doit démontrer l’adéquation des mesures pour rendre les données anonymes et garantir l’efficacité de la désidentification.

Il doit veiller à la répartition de cette responsabilité sur tous les intervenants des phases du traitement.

L’évaluation des risques de la rupture de l’anonymisation en Big data doit être une préoccupation constante et documentée.

 Elle doit être réactualisée en regard de l’évolution technologique des techniques d’anonymisation.

7e principe : Le rôle de l’intervention humaine dans les décisions fondées sur le Big data

Les lignes directrices complètent à cet égard l’interprétation du § 3 de l’article 22 du RGPD.

D’abord le principe et les modalités de l’intervention humaine devrait être organisé dès l’étude d’impact sur les effets du traitement tel que recommandé dans le principe n° 1.

Le responsable de traitement doit organiser les modalités de contrôle humain à toutes les phases du calcul algorithmique :

Pour la phase de Data Quality pour la préparation des modèles de données.

Et le développement opérationnel du traitement avec les divers procédés de Machine Learning pour les phases de test et d’entraînement des modèles.

Enfin pour l’utilisation des résultats fournis à l’aide du Big Data.

Ce résultat ne devrait être qu’un des éléments de la prise de décision sans être exclusivité.

En tout cas le responsable de traitement doit organiser dans sa gouvernance interne du traitement l’exercice des droits des personnes concernées. (Article 22§3 RGPD)

8e principe : L’utilisation des données ouvertes

Lorsque les responsables de traitement adoptent des politiques de données ouvertes avec des effets de fusion et d’extraction de différentes données appartenant à différents ensembles ils doivent avoir une démarche particulière sur le processus d’anonymisation.

Le recours aux techniques d’apprentissage non supervisé comme le clustering doivent être régulées dès l’étude d’impact « by design » notamment pour le choix des techniques algorithmiques en rapport avec la prévention des discriminations et des biais.

9e principe : éducation

Il est à la charge du responsable de traitement Big data de prendre l’initiative d’une part de maîtriser lui-même l’information numérique et surtout de la développer au profit des personnes concernées

Conclusion provisoire :

Ce bref commentaire des lignes directrices du comité directeur de la Convention 108+ sur l’utilisation des gros volumes de donnés en Big Data ne permettait pas de tout développer !

Nous reviendrons sur ces problématiques riches d’interrogations et en totale construction réglementaire au cas par cas.

Ainsi un traitement Big Data doit s’accompagner de l’animation d’une équipe avec des compétences transversales.

 Si les Data ScientistsData Analystes, et Data manager y ont toute leur place, le juriste spécialisé en Data science pour la rédaction d’une ingénierie contractuelle très sophistiquée est nécessaire.

Les DPO, notamment lorsqu’ils sont juristes ont toute leur place pour intégrer ces équipes aux spécialités transversales.

Article rédigé à Marseille le 05 Avril 2021

Véronique RONDEAU ABOULY

Avocat au barreau de Marseille, DPO externe.

La rédaction de cet article a été conçue et organisée pour vous soumettre des informations utiles, des axes de réflexion pour une utilisation personnelle ou à visée professionnelle.

Il est mis à jour régulièrement mais dans un contexte réglementaire et jurisprudentiel évoluant, nous soulignons que nous ne pouvons être responsable de toute péremption du contenu, ou de toute erreur juridique et/ou inexactitude qui pourrait se révéler en fonction de l’évolution,  le lecteur voudra bien considérer qu’en tout état de cause pour une application personnalisée chaque cas est unique et que bien sûr le cabinet reste à votre disposition si vous avez une question précise à poser en lien avec cet article, nous nous ferons un plaisir de collaborer avec vous, n’hésitez pas à prendre contact ou à nous téléphoner.