Data Literacy

Nous Voici dans l'univers du Web 4. 0, ceci nécessite de s'approprier les règles d'un nouveau langage.

Pour comprendre l'écosystème de la « Data », de « l'intelligence artificielle ", de la « Blockchain », de la « DeFi » ou « Finance décentralisée », je vous propose de venir consulter régulièrement ce lexique conçu à votre attention,

Il est rédigé avec le plus grand soin,  les définitions proposées reflètent   mes opinions personnelles et ne prétendent pas à l’exhaustivité .

Je vous propose ici un outil de réflexion, bienvenue en DATA LITERACY .


A

Algorithme
L’arrêté du 27 juin 1989 relatif à l’enrichissement du vocabulaire de l’informatique définit l’algorithme comme : « l’étude de la résolution de problèmes par la mise en œuvre de suite d’opérations élémentaires selon un processus défini aboutissant à une solution ».L’algorithme met en œuvre des procédures mathématiques ou méthodes de calcul pour arriver à un résultat.S’agissant d’un « principe de calcul » le droit considère que l’algorithme appartient au domaine des idées et n’est pas protégeable en soi par le droit d’auteur.Si l’algorithme est intégré dans un logiciel il peut prétendre à une protection par le droit d’auteur, ou bénéficier d’une protection indirecte, à certaines conditions et au cas par cas par le savoir-faire, et/ou une clause de confidentialité, et/ou une clause de secret des affaires.

Apprentissage automatique ou Machine Learning
Le vocabulaire de l’informatique dans son Arrêté du 9 décembre 2018 le définit comme : « Le processus par lequel un algorithme évalue et améliore ses performances sans l’intervention d’un programmeur, en répétant son exécution sur des jeux de données jusqu’à obtenir, de manière régulière, des résultats pertinents. »Ce système relève de l’intelligence artificielle il met en œuvre l’ensemble des techniques permettant l’apprentissage à partir de modèles de données.

API - Application Programming Interface
Application Programming Interface ou Interface de programmation, Solution Informatique ou porte d‘entrée à un modèle, produit ou application permettant de communiquer et d’échanger des services ou des données. Utilisée dans un environnement Web, l’API doit impérativement veiller à sécuriser les modalités d' échanges de flux de données et respecter le RGPD

Analyse des sentiments
L'analyse de sentiments ou "sentiment analysis" en anglais utilise des outils TALN (TAL ou NLU, voir ci dessous glossaire); pour préparer la compréhension contextuel du texte notamment en déterminant et recherchant la granularité "émotionnelle" liée aux mots employés, ce qui est très utile pour analyser les réactions des clients en ce compris les avis clients, et apprécier la teneur des échanges sur les réseaux sociaux en lien avec une activité, un produit, une manifestation etc. Cette technique met notamment en œuvre les outils de text Mining.

Anonymisation
Appliquée à la donnée à caractère personnel, l'anonymisation est une technique de traitement issue de la data science pour garantir que les informations collectées sur une personne ne permettront plus de l'identifier. L'anonymisation ne doit pas être confondu avec la pseudonymisation qui elle permet de réidentifier une personne. Le procédé d'anonymisation doit reposer sur un protocole de diligence qui doit être documenté par le responsable de traitement et régulièrement vérifié pour s'assurer du maintien de l'anonymisation.


D

Data Inférence
Techniques relevant de la Data Science à base de calculs statistiques pour établir des conclusions après observation de données (Cluster) de différentes catégories

Data Management
La démarche Data Management consiste à animer la gouvernane opérationnelle des données.Il s'agit d'organiser la stratégie de la collecte de la donnée en interne auprès des différents services de l'entreprise ou en externe auprès des tiers (fournisseurs,clients,partenaires).Cette démarche inclue aussi la nécessité après avoir intégré le fichier contenant les données d'en étudier le contenu et de réaliser les opérations de curation ou "nettoyage" des informations pour permettre d'abord le partage interne de la donnée entre les différents services , mais aussi pour préparer le travail du Data scientist qui prendra en charge une donnée nétoyer pour la constitution de ses modèles d'entrainement.

Data Science ou Science des données
Pour le vocabulaire de l’informatique dans son Arrêté du 9 mars 2021 la « Data science » est « La discipline qui fait appel à des méthodes statistiques, mathématique et informatique pour analyser des données, en particulier des mégadonnées afin d’en extraire toutes informations utiles ». Appartiennent à la data science toutes les techniques qui apprennent à partir des données comme par exemple le Machine Learning, le Deep Learning, la Datavisualisation, l’inférence statistique ou la Data inférence, le TDM ou « Data Mining », les graphes orientés acycliques attribués, etc.

Donnée Biométrique
Pour le RGPD article 4§14 une donnée Biométrique est une donnée à caractère personnel résultant d’un traitement technique spécifique relatives aux caractéristiques physiques, physiologiques ou comportementales d’une personne physique, qui permettent ou confirment son identification unique, telles que des images faciales ou des données dactyloscopiques.

Droits fondamentaux
Il s’agit des de l’ensemble des droits attachés à la personne humaine qui sont reconnus par la Charte européenne des Droits fondamentaux. Le projet de règlement Européeen sur la réglementation de l’intelligence Artificielle en Europe rappelle dans son préambule en §28, que cette notion de « Droits fondamentaux » sera très importante pour évaluer l’impact négatif causé par les systèmes d’intelligence artificielle sur ceux-ci et classer le système d’IA comme étant à « Haut risque ».Ces droits comprennent le droit à la dignité humaine, le respect de la vie privée et familiale, la protection des données à caractère personnel, la liberté d’expression et d’information, la liberté de réunion et d’association, la non-discrimination, la protection des consommateurs, les droits des travailleurs, les droits des personnes handicapées, le droit à un recours effectif est un procès équitable, les droits de la défense et la présomption d’innocence, le droit à une bonne administration. S’y rajoute les droits spécifiques consacrés par l’article 24 de la charte de l’union européenne et par la Convention des Nations unies relatives aux droits de l’enfant, l’obligation de prendre en considération les vulnérabilités des enfants et de leur fournir la protection et les soins nécessaires à leur bien-être. Et le droit fondamental à un niveau élevé de protection de l’environnement consacré par la charte est mis en œuvre dans les politiques de l’union devrait peu à peu être prise en compte lors de l’évaluation de la gravité des dommages qu’un système d’intelligence artificielle pourrait causer notamment en ce qui concerne la santé et la sécurité des personnes.

Donnée structurée
Une « donnée structurée » a été « nettoyée » par différentes techniques de Data Science pour la « prédéfinir » par des attributs de classification et un format de représentation dans des champs permettant son échange entre divers logiciels et surtout d’être « requêtable » en base de données relationnelles (SQL), stockée en Data Warehouse.

Donnée non structurée
La « donnée non structurée » elle est stockée dans son format natif sans traitement préalable avant utilisation et ne sera définie qu’en fonction du besoin. Elle à une finalité adaptable et permet des analyses multiples, il s’agit des données issues le plus souvent du Web, on parle souvent la concernant de la donnée sémantique car issue du Web Sémantique (Posts des réseaux sociaux, chats, contenus web, vidéos, données de capteurs IOT etc) C’est la donnée dite « Big Data » qui est stockée dans les « Data Lake » ou « Hub de données » qui eux stockent des données diverses pour tous usages. Pour l’hébergement cloud de ce type de données (Non structurées et semi structurées) il est recommandé de choisir un cloud qui offre aussi des services de préparation et de mise à disposition de la donnée en fonction des usages souhaités.

Donnée semi structurée
La « donnée semi structurée » s’apparente à la donnée non structurée mais elle a des métadonnées suffisamment pertinentes pour rendre son analyse avant traitement plus efficace.

Data Driven Computing
La Data Driven Computing (DDC) est un nouvel outil de Data Science issue du développement des puissances de calcul du cloud offrant des solveurs orientés données permettant de se passer de modèles pour incorporer directement des ensembles de données bruyantes pour une approche prédictive.

DeFi : Decentralized Finance ou Finance décentralisée
Écosystème né dans le sillage de la crise financière de 2008, et en lien avec l'essor des techniques informatiques des serveurs ou nœuds (Nod) distribués. La finance décentralisée propose des services financiers sans intermédiaire. L'utilisateur crée son portefeuille (Wallet) pour effectuer des transactions « d'utilisateurs à utilisateurs » de façon décentralisée sans besoin de permission (Permissionless), et sans besoin de faire confiance à une partie centrale (Trustless)


F

'FLoC'
Ce terme ‘FLoC’ ( Federated Learning of Cohorts ) ou ‘Apprentissage fédéré des cohortes’, fait partie des nouvelles propositions de Google dans le cadre du développement de son nouveau procédé Privacy Sandbox. Il s’agit d’autoriser le ciblage publicitaire par centre d’intérêt en permettant aux acteurs du marché publicitaire de cibler des groupes d’intérêts particuliers (cohortes). Dans le cadre de cette proposition ‘FLoC’ en cours de développement par Google , le navigateur s’attribuera une cohorte d’utilisateurs ayant un historique de navigation similaire, pour permettre lorsqu’il accède à une page Web d'envoyer un ID de cohorte spécifique au site Web. Les éditeurs pourront inclure ces ID de cohortes dans leurs requêtes publicitaires afin de cibler les publicités sur une cohorte.

Fledge (Voir Turtledove/Fledge)
Version amendée de Turtledove dans le cadre du développement du projet Privacy Sandbox par Google. Fledge repose sur le développement d’une API de jetons ou de tiers de confiance pour enregistrer les logiques d’enchères lancées par les annonceurs ou son DSP sans inclure d’information sur l’utilisateur et en limitant celles disponibles sur l’événement de conversion. La technique Fledge et son développement sont en cours au jour de la rédaction de cette définition(Août2021), l'utilisation de cette technologie pour l'instant en développement nécessitera pour les intervenants à l'opération (Annonceurs, fournisseurs des technologies, agence de publicité) de considérer l'utilisation de cette technologie comme un traitement soumis notamment à la Directive E-Privacy sur la protection de la vie privée dans les communications électroniques bientôt remplacée par le Règlement E-Privacy, ainsi qu'au RGPD pour l'utilisateur final des résultats des traitement éditeurs des sites web notamment.

Fiat ou monnaie FIAT
Terme spécifique employé en Finance Décentralisée 'DeFi' pour désigner la monnaie fiduciaire instituée par les états.


H

Hadoop
Hadoop est un framework open source développé en 2002 par 2 ingénieurs de google et conçu pour stocker de très gros volumes de données sur un grand nombre de machines équipées de disques durs . Outre sa capacité de stockage connue sous le nom de HDFS "Distributed file System " ,Hadoop est associé à MapReduce, un outil de traitement des données par un algorithme qui permet le traitement en parallèle de plusieurs tâches. Ainsi associant un espace de stockage hautement évolutif, distribué et à charge équilibrée, Hadoop permet de lire les données de la manière la plus rapide possible à partir de plusieurs nœuds ou "data node" en parallèle.


I

Intelligence Artificielle (IA)
Il n’y a pas actuellement de définition légale de l’intelligence artificielle, le comité ad hoc sur l’IA (CAHAI) qui travaille auprès du conseil de l’Europe à l’élaboration des futures normes réglementaires sur l’IA préconise dans son rapport des 21 et 22 septembres 2020 de ne pas réglementer la définition compte tenu du caractère évolutif des procédés technologiques et du développement de l’innovation.Le CDMSCI (comité directeur sur les médias et la société de l’information), suggère une définition a minima ou l’intelligence artificielle devrait se définir en regard de ce qui fait référence à des « processus automatisés de prise de décision ou à des systèmes basés sur des algorithmes ».

Intelligence artificielle faible
Le projet de règlement du Parlement européen et du conseil sur l’intelligence artificielle la définit néanmoins dans son article 3 (1) en la définissant comme un « système d’intelligence artificielle » c’est-à-dire un logiciel développé à l’aide d’une ou plusieurs des techniques et approches énumérées à l’annexe I du règlement et capable, pour un ensemble donné d’objectifs définis par l’homme, de générer des résultats tels que des contenus, des prédictions, des recommandations ou des décisions influençant les environnements avec lesquels ils interagissent.

Intelligence Artificielle forte
Si elle est possible un jour elle consisterait à utiliser des "machines" qui soient dotées d'une "conscience d'elle-même" avec la faculté de raisonner et d'avoir des émotions.Les cherceheurs en Data science considèrent que l'avènement de l'Intelligence artificielle forte reste dans l'instant un objectif à très long terme.

Internet des objet (IdO ou IoT
L’Internet des objets ou IdO, ou en anglais Internet of Things ou IoT, à une définition plus large que « l’objet personnel connecté », il recouvre toutes les technologies qui interconnectées à l’internet qui relient une plateforme à divers objets connectés pour faire communiquer ces divers objets physiques en lien avec les interactions et/ou utilisation de l’identité numérique (personne physique ou pas) rattachée à l’objet. Dans le langage courant le terme de IoT peut renvoyer au capteur. Dans tous les cas si des données personnelles font partie des flux collectés l’ensemble du traitement est soumis au RGPD. Le développement continu de l’Internet des objets à amené la vague du Web 4.0 et contribue à profondément révolutionner les conditions et enjeux des traitement Big Data. Il implique une radicale transformation des Systèmes D’information (SI) internes par le placement de la donnée au cœur des exploitations avec de nouvelles modalités d’accès et de partage à repenser du fait des traitements de données en temps réel.


M

Métadonnée
L’origine des métadonnées vient des anciennes pratiques des bibliothécaires qui référençaient leurs livres par des fiches de renseignements sur leurs principales caractéristiques. L’arrivée du numérique à révolutionné cette ancienne activité de classement ou production de « la donnée sur la donnée » qui est devenue l’action de documenter ou informer sur le contenu de la donnée, sa finalité et ses caractéristiques. Tout projet Big Data impose de cartographier une liste de Métadonnées particulièrement lorsque le responsable de traitement partage ses données selon une politique de « Data sharing » ou prépare des modèles destinés à l’apprentissage par algorithme. C’est au responsable du traitement que revient la charge de documenter ses métadonnées qui doivent se concevoir par rapport au référentiel métier applicable à son activité en intégrant notamment tout le processus de la traçabilité de la donnée, des conditions de son obtention aux règles appliquées au processus de Data Management de Data Quality L’élaboration d’un catalogue de Métadonnées peut être protégé par le droit d’auteur et/ou le droit du producteur de base de données.

Mégadonnée
Pour Le vocabulaire de l’informatique dans sa définition donnée le 22/08/2014, ce terme renvoie aux « données structurées » ou non dont le très grand volume requiert des outils d’analyse adaptés. On parle donc indifféremment de « données massives », ou « grand ensemble de données », ou de « Big Data ». Le traitement des Mégadonnées met en œuvre les techniques de Data Science en lien avec l’utilisation de plateforme de calcul de grande puissance par l’intermédiaire des services de Cloud Computing. Aussi un traitement « Big Data » ou de Mégadonnées nécessite lors de la migration de ces données sur un cloud computing de poser un cadre de gouvernance très précis pour gérer les problèmes de portabilité et d’interopérabilité respectant les normes du RGPD avec dans tous les cas un pilotage de gestion des volumes de données garantissant leur intégrité, sécurité, résilience et conformité.


N

NLP ou Natural Language Processing
NLP ou "Traitement automatique du langage", est une technologie mettant en œuvre les outils de la Data science associés à l'intelligence artificielle pour analyser le langage des humains, lors de leurs interactions avec les machines, et ainsi traiter la donnée issue des messages ou contenus web et apporter des réponses aux requêtes diverses formulées par l'intermédiaire de l'ordinateur.

NLU ou Natural Language Understanding
Constitue avec la NLP une technologie mettant en œuvre les outils statistiques de la Data Science pour comprendre le langage humain et interagir avec lui et prendre des décisions le concernant en lien avec l'analyse de ses requêtes ou du patrimoine informationnel relié à cet humain. Le NLU va au delà du NLP. Le NLP est la mise en œuvre de techniques pour une interprétation littérale des textes, alors que le NLU optimise l'interprétation sémantique des contenus pour détecter et identifier les intentions et la signification profonde de ce qui est dit ou écrit.


O

Objet personnel connecté
Le vocabulaire de l’informatique par son Arrêté du 9 mars 2021 a remplacé le terme « cybervêtement » par celle « d’objet personnel connecté » pour le définir comme : Tout objet connecté que l’on porte sur soi, qui peut être un vêtement ou un accessoire comme une montre, paire de lunettes, bijoux, paires de chaussures, ceintures etc. Ces objets personnels connectés peuvent contribuer à l’évaluation des performances physiques de son porteur, et à l’automesure connectée. (Quantified Self) Dans tous les cas le développement logiciel d’un « objet personnel connecté » nécessite de se préoccuper par une démarche « Privacy by design » avec une analyse d’impact ou « Privacy Impact Assessment » (PIA) de la protection de la Vie privée des personnes utilisatrices, (RGPD article 35).


P

Privacy Sandbox
Ce projet est une initiative de Google pour une mise en œuvre effective en 2023 pour créer des technologies Web qui protègent la vie privée des personnes en ligne sur de nouvelles bases en visant à empêcher le suivi lors de leurs navigations sur le web, avec donc la suppression annoncée des cookies tiers et des fingerprinting (empreintes numériques), mais cette initiative de la rénovation de la protection de la Privacy des utilisateurs des services du web s'accompagne aussi de la prise en compte pour les entreprises en ligne de leur besoin de pouvoir tirer des revenus de leurs sites et mieux cibler les besoins de leurs clients.


R

RGPD
règlement général sur la protection des données. Les principaux objectifs du RGPD sont d'accroître à la fois la protection des personnes concernées par un traitement de leurs données à caractère personnel et la responsabilisation des acteurs de ce traitement.

Reconnaissance faciale
La reconnaissance faciale est un traitement automatique d’images numériques contenant des visages d’individus pour une finalité d’identification, ou de vérification de ces individus en utilisant des modèles de visage. En cela le système utilise des données biométriques qui soumet le traitement à une réglementation particulière devant respecter le RGPD, la Vie privée et les Droits fondamentaux garantis par le droit de l’union européenne.


T

Turtledove/Fledge
Turtledove fait partie du projet Privacy Sandbox de Google pour organiser la suppression des cookies tiers de publicité. Ce projet vise à modifier la technique marketing du « reciblage » ou « remarketing », c’est-à-dire la technique visant à diffuser des annonces ciblées à des personnes ayant visité le site Web d’un annonceur. La finalité est d’organiser le reciblage des utilisateurs tout en empêchant leur suivi inter-sites. Turtledove, visait à permettre aux annonceurs d’exploiter leurs bases de données « first party » sans cookies tiers. Cette version a été modifiée au profit de Fledge qui repose sur le développement d’une API de jetons ou de tiers de confiance pour enregistrer les logiques d’enchères lancées par les annonceurs ou son DSP sans inclure d’informations sur l’utilisateur et en limitant celles disponibles sur l’événement de conversion. La technique Fledge et son développement sont en cours au jour de la rédaction de cette définition(Août2021)

Tokenisation (dans le contexte du TAL Traitement Automatique du Langage)
Technique de Data science fondée sur l'apprentissage machine consistant à préparer le texte à faire interpréter par les algorithmes du TAL (Traitement Automatique des Langues). La préparation ici est de découper les phrases du texte en divers segments pour leur attribuer un token permettant ensuite de faire des analyses de compréhension de sens et/ou d'interprétation de contenus.

Trustless
Technologie utilisée en DeFi, ou « Finance décentralisée », pour échanger des actifs ou des valeur sans tierce partie, les interactions reposent sur le code et la gouvernance de conditions prédéfinies pour garantir l'effectivité de l'opération.


V

Vie Privée
Dans l’écosystème de l’utilisation des données et des données à caractère personnelle le concept de Vie Privée est une notion juridique très importante. Le projet de réglementation sur l’Intelligence Artificielle de la Commission européenne du 21 Avril 2021 précise que tout système d’Intelligence Artificielle traitant des données à caractère personnel devra respecter la Vie Privée qui s’entend comme : «  le droit d’un individu à être laissé seul et à contrôler les informations le concernant ». Ce droit à la vie privées est consacré par plusieurs textes soit la Déclaration universelle des droits de l’homme (article12), la Convention européenne des droits de l’homme (article 8), et la Charte Européenne des droits fondamentaux en ses articles 7 et 8.


W

Wallet
appliqué en finance décentralisée ou 'DeFi', il s'agit du portefeuille qui permet de stocker les cryptomonnaies.

Wallet custodial
Appliqué à la finance décentralisée ou DeFi, le wallet custodial est un espace de stockage des actifs situés sur une plateforme d'échange qui détient la clef du propriétaire du Wallet, ce qui facilite pour lui les transactions et le suivi de l'historique des informations sur l'état du portefeuille. Par contre en cas de fermeture de la plateforme d'échange ou de hackage de celle-ci, le propriétaire du Wallet custodial peut perdre ses actifs définitivement.

Wallet non custodial
Ce Wallet confère par contre à son propriétaire à la différence du Wallet custodial la pleine possession de ses crypto-actifs puisque c'est lui qui détient sa clef privée, ce qui suppose pour lui de ne pas la perdre et aussi de bien choisir les dispositifs ou applications logicielles à installer sur ses devices en cherchant les solutions logicielles les plus sûres.