LLM, Droit d'auteur : Défis Juridiques à l'Horizon

LLM Droit auteur IA Système Génératif Web3 Avocat Marseille

Publié le 2023-29-23

LLM et Droit d'Auteur à l'ère du Web Sémantique : défis juridiques liés à ChatGPT, ou Comment les LLM traitent le contenu ?

Implications pour les auteurs et enjeux futurs."

Sommaire :

I) Introduction : L'intersection de l'IA et du droit d'auteur

II) L'IA et le Droit d'Auteur : Une Intersection Complexifiée par le LLM

III ) La singularité du LLM face aux modèles traditionnels d'IA"

III-a) Les LLM (Modèles de Langage à Grande Échelle) ne sont pas des bases de données

III-a-1) Modèle de sortie dans un système d'apprentissage classique

III-b-) Modèle de langage à grande échelle (LLM)

IV) LLM et l’attribution des droits d’auteur : une énigme juridique

V) Conclusions

I) Introduction : L'intersection de l'IA et du droit d'auteur

Le 12 septembre 2023, l'Assemblée nationale française a été témoin d'une initiative législative intéressante :

Huit parlementaires ont introduit une proposition de loi visant à intégrer l'intelligence artificielle (IA) dans le cadre du droit d'auteur.

Cette démarche, bien qu'encore naissante, invite à la réflexion

Nous vivons à une époque où la technologie et le droit se croisent de manière sans précédent.

L'émergence des modèles d'intelligence artificielle générative, en particulier le LLM (Large Language Model), pose des questions juridiques et éthiques complexes.

Ces modèles, formés sur d'énormes volumes de données, sont capables de comprendre, générer du langage humain, et même produire des contenus visuels et sonores.

La proposition de loi, bien qu'ayant pour noble intention de protéger les droits d'auteur, soulève une question cruciale :

Est-elle adaptée à un défi technologique qui transcende les frontières nationales ?

Dans un monde numérique globalisé, la protection des droits d'auteur est un défi colossal.

Une seule réglementation nationale est-elle à la hauteur de cette tâche ?

Ce alors que les institutions européennes ont également pris position sur cette question. Le 14 juin 2023.

Le Parlement européen a défini sa vision de l'IA, englobant à la fois les "modèles de fondation" et les "IA génératives".

Ces dernières, capables de créer de manière autonome divers contenus, sont au centre des discussions actuelles sur les implications du droit d'auteur

II) L'IA et le Droit d'Auteur : Une Intersection Complexifiée par le LLM

L'article 3 de cette proposition suggère une modification de l'article L 121-2 du Code de la Propriété Intellectuelle (CPI) pour y inclure la mention :

"œuvre générée par IA", tout en précisant les noms des auteurs ayant contribué à sa réalisation.

Cette démarche législative soulève une question fondamentale :

Comment organiser la mention des auteurs ayant contribué à l’œuvre.

La véritable problématique réside dans la nature et la transparence de cette contribution.

Le règlement européen sur l'IA, daté du 14 juin 2023, aborde également cette question en allant plus loin car il donne d’abord la définition du système d’IA générative dans son article 28 ter § 4 :

Il définit l'IA générative par la notion de fournisseur des services :

Il s’agit de ceux qui fournissent des systèmes d'IA spécifiquement conçus pour générer, avec différents niveaux d'autonomie, des contenus tels que :

Des textes,
Des images,
Ou des contenus audio ou vidéo complexes ("IA générative"),

Se trouvent concernés aussi les fournisseurs spécialisés dans la transformation d'un système d'IA à usage général en un système d'IA générative

Et par ailleurs cet article établit aussi les obligations pour les fournisseurs de ces systèmes, notamment en matière de transparence et de respect du droit d'auteur qui doivent :

a) se conformer aux exigences de transparence énoncées à l'article 52, § 1,
b) former, concevoir et développer le système d'IA à usage général de manière à garantir des mesures de protection appropriées contre la production de contenus en violation du droit de l'Union, conformément à l'état actuel de la technique,
c) documenter et rendre public un résumé détaillé de l'utilisation des données d'entraînement protégées par le droit d'auteur, sans préjudice de la législation de l'Union ou nationale en matière de droit d'auteur.

Or, la mise en œuvre de ces réglementations, qu'elles soient françaises ou européennes, présente des défis.

Comment définir et informer sur l’utilisation des œuvres protégées par les droits d'auteur utilisées par l'Intelligence Artificielle ?

La proposition de loi suggère une modification de l'article L321-1 du CPI, stipulant que :

Seuls les auteurs ou détenteurs des droits des œuvres ayant contribué à la création d'une œuvre par IA seraient considérés comme détenteurs des droits sur l’œuvre si elle est générée sans intervention humaine directe.

Cette perspective soulève des débats :

Un créateur assisté par une IA peut-il être considéré comme un auteur à part entière ?

Le Bureau américain du droit d'auteur a établi des critères à ce sujet, que nous explorerons par un autre article.

Enfin, une question essentielle demeure :

Comment définir la "création" lorsqu'elle est issue des interactions avec le LLM ?

Comment mesurer la contribution des données collectées par le LLM ?

Ces interrogations sont cruciales car elles influencent la rémunération des auteurs ayant enrichi le LLM.

Il est clair que la régulation des technologies comme le LLM nécessite une compréhension approfondie de leur fonctionnement.

III ) La singularité du LLM face aux modèles traditionnels d'IA" :

III-a) Les LLM (Modèles de Langage à Grande Échelle) ne sont pas des bases de données :

Contrairement à une idée reçue, les LLM, dont ChatGPT est un exemple emblématique, ne fonctionnent pas comme des bases de données traditionnelles.

Les LLM ne stockent pas d'informations spécifiques de la manière dont un humain mémorise un fait ou une base de données stocke une entrée.

Au lieu de cela, ils "codent" ou "représentent" l'information sous forme de poids et de paramètres dans leurs neurones artificiels.

Ces poids sont ajustés pendant la phase d'entraînement du modèle.

Quand on dit qu'un LLM "sait" quelque chose, cela signifie qu'il a ajusté ses poids de manière à produire une certaine sortie (comme une réponse à une question) en fonction d'une entrée donnée (comme un prompt).

Ce qu'il "sait" est en réalité une représentation codée de l'information basée sur les motifs et les structures qu'il a observés dans les données d'entraînement.

Ainsi, même s'ils ont été exposés à des éléments tels que des articles du New York Times, du « Monde », un tableau ou un extrait de film, ils ne "se souviennent pas" de ces éléments individuels.

Au lieu de cela, ils ont appris des structures, des motifs et des connaissances générales à partir d’informations numérisées.

Leur principal objectif est de comprendre et de générer du contenu de manière cohérente, en s'appuyant sur les schémas qu'ils ont observés.

C'est une forme de "sens de la connaissance codé", qui les différencie des modèles d’apprentissage classiques.

III-a-1) Modèle de sortie dans un système d'apprentissage classique :

Définition : Dans un système d'apprentissage classique, un modèle est spécifiquement entraîné pour une tâche, comme la classification d'images.

Le modèle final, prêt à être déployé, est appelé "modèle de sortie".

Données d'entraînement : Le modèle est formé sur un ensemble de données spécifique.

Par exemple, pour un modèle de classification d'images, il serait formé sur des images avec des étiquettes correspondantes.

Fonctionnement : Après l'entraînement, le modèle peut par exemple prédire des étiquettes pour de nouvelles images.

Limitations : Ces modèles sont spécialisés.

Un modèle formé pour classer des images de chiens ne classerait pas efficacement des images de voitures.

III-b-) Modèle de langage à grande échelle (LLM) :

Définition : Un LLM, comme ChatGPT, est conçu pour comprendre et générer du texte. Il est polyvalent et peut répondre à divers prompts.

Données d'entraînement : Les LLM sont formés sur d'énormes quantités de texte du web.

Ils apprennent des motifs linguistiques plutôt que des faits spécifiques.

Fonctionnement : Basé sur un prompt, un LLM génère du texte.

Il ne "sait pas" au sens traditionnel, mais génère des réponses basées sur les motifs qu'il a observés.

Limitations : Malgré leur polyvalence, les LLM n'ont pas de mémoire des sources, ils ne peuvent pas « citer » un article spécifique.

La distinction entre ces deux types de modèles est cruciale.

Alors qu'un « modèle classique » est spécialisé, un LLM est « généraliste ».

Cette différence est essentielle pour comprendre leurs interactions avec les contenus explorés et leurs implications pour le droit d'auteur.

IV) LLM et l’attribution des droits d’auteur : une énigme juridique

Le sujet en discussion reste la question complexe de l'attribution des droits d'auteur en relation avec les Modèles de Langage (LLM).

La principale préoccupation n'est pas d'accuser le LLM de simplement lire un contenu spécifique, mais plutôt de lui reprocher de réutiliser ce contenu sous une forme subtile après l'avoir traité à travers des neurones artificiels.

La critique réside dans le fait que le LLM fonctionne sur la base de connaissances qu'il n'a pas créées.

Cependant, contrairement à une idée répandue, le LLM ne fonctionne pas comme un « oracle » ou un « fournisseur d'informations ».

Au lieu de cela, il « déduit des connaissances » d'une vaste quantité de données, en se concentrant sur la structure plutôt que sur le contenu exact.

Il est important de noter que le LLM ne réutilise pas directement le contenu.

Il génère des réponses stochastiques en appliquant des motifs appris à différents prompts.

Cela peut être source de confusion pour les auteurs, car le LLM valorise l'ensemble du contenu qui lui permet d'agréger du sens, plutôt qu'un contenu spécifique.

Et à partir d’une interrogation par un prompt, les réponses seront toujours aléatoires et 10 personnes à travers la planète rédigeant un prompt avec les mêmes mots sur un sujet identiques auront 10 résultats différents.

Ceci rend donc l’auteur d’origine modeste quant à la « valeur intrinsèque » liée à la réutilisation de son contenu.

Donc la valeur économique et d’usage d'un LLM réside dans sa capacité à interpréter et à répondre à divers prompts, plutôt que dans la valeur intrinsèque d'un contenu spécifique.

Lors de l'utilisation d'un LLM pour générer du texte ou des images, l'origine exacte des données d'entraînement est souvent secondaire.

Ce qui compte, c'est le résultat final, influencé par notre interaction avec le LLM.

Cependant, cela présente deux problèmes contradictoires.

D'une part, il y a le défi de trouver une rémunération juste et appropriée pour la capacité du LLM à extraire d'énormes quantités de connaissances de diverses sources.

D'autre part, il est crucial de reconnaître que le fournisseur du LLM a réalisé d'importants investissements technologiques pour affiner l'information qu'il délivre, garantissant des réponses de haute qualité aux prompts.

Et ce tout en trouvant un positionnement loyal pour la rémunération des auteurs au sens très large comme on vient de le démontrer.

De plus, les fournisseurs de contenu, tels que les sites web et les producteurs de bases de données, mettent de plus en plus en place des mesures pour empêcher l'extraction de données par les robots de recherche.

Cela pourrait poser un problème pour l'accès à la connaissance et à l'information gratuite à long terme, ainsi que pour la pertinence des résultats des prompts.

V) Conclusion :

Au terme de cet article la conclusion ne peut être que provisoire.

Bien sûr la rémunération des auteurs est une préoccupation légitime, comme en témoignent la proposition de loi française et le projet de règlement européen sur l'IA.

Cependant, le défi est de trouver un équilibre entre la reconnaissance des droits individuels des auteurs et la nature collective de la connaissance utilisée par le LLM.

La question de la transparence dans la formation des LLM, compte tenu de l'énorme quantité de données qu'ils traitent, sera au cœur des débats futurs.

L’obligation de la délivrance d’une information transparente sur le patrimoine informationnel des « œuvres » utilisées par le LLM sera difficile à organiser.

Cette information est nécessaire pour attribuer les redevances d’utilisation pour les œuvres utilisées, mais le problème sera de distinguer les auteurs dans ce vaste graphe universel des connaissances qu’utilisent les LLM.

Nous terminons par un trait humour mais qui résume bien la situation.

Que vaudra dans la grande base des informations agrégées par ChatGPT le présent article que vous aurez eu nous l’espérons, le plaisir de lire.

Si cet article, par exemple, génère 8 000 vues sur les réseaux sociaux et autant de clics sur mon site, cela témoignera de son impact et de sa pertinence pour le public.

Cependant, pour un LLM, la valeur de cet article ne réside pas dans sa popularité, mais dans son contenu et sa structure.

Dans le vaste océan d'informations que le LLM traite, chaque article, indépendamment de son trafic ou de sa renommée, est une « goutte » qui contribue à « l'ensemble de la connaissance ».

À l'ère des Modèles de Langage à Grande Échelle (LLM) et de l'intelligence artificielle, la manière dont le contenu est traité, interprété et généré remet en question nos conceptions traditionnelles de la propriété intellectuelle.

Les LLM ne se contentent pas de copier ou de reproduire ; ils comprennent, interprètent et génèrent du contenu basé sur des motifs appris.

Cette dynamique complexe soulève des questions cruciales sur la reconnaissance et la rémunération des auteurs.

Lorsqu'un LLM interagit avec un contenu, il s'enrichit et se perfectionne.

Comment, alors, cette valeur ajoutée est-elle quantifiée et récompensée ?

Dans ce contexte complexe, une question fondamentale se pose :

Jusqu’à quel niveau de détail devons-nous aller pour citer les auteurs et les sources utilisées par le LLM, surtout quand on sait que ce dernier traite le contenu en termes de liens internes et de poids des mots-clés ?

L'idée d'un collectif d'auteurs émerge comme une solution potentielle.

Cependant, une interrogation subsiste :

Comment un tel collectif pourrait-il efficacement représenter et défendre les droits des créateurs de contenu face à la montée des LLM, surtout lorsque l'ensemble du web sémantique peut être indexé ?

Il est crucial de se rappeler que même si un article ou une œuvre attire de nombreux lecteurs, sa valeur intrinsèque au sein de l'écosystème des LLM pourrait différer de nos conceptions traditionnelles.

L'échantillonnage d'une base de données publique, par exemple, pose des questions, car bien qu'elle puisse contenir une grande quantité d'informations, la valeur informationnelle de ces données peut varier considérablement.

Les LLM jouent un rôle essentiel dans l'avancement de la connaissance humaine grâce à leur capacité à traiter et interpréter d'énormes quantités d'informations.

Ils sont, sans aucun doute, un atout pour l'humanité.

Cependant, il est vital de ne pas freiner leur innovation avec une réglementation trop stricte.

Une telle approche pourrait décourager les fournisseurs d'information et ralentir le développement des LLM, notamment ceux qui offrent des services gratuits ou freemium.

Trouver un équilibre entre la reconnaissance des droits des auteurs et la promotion de l'innovation technologique est donc impératif.

Le cabinet de Maître Véronique Rondeau-Abouly se consacre à l'accompagnement juridique dans le domaine de la « Data », qu'il s'agisse de données personnelles ou non.

Forte de sa qualification de DPO, Maître Rondeau-Abouly vous guide dans la mise en place d'une gouvernance interne efficace de vos données, notamment en ce qui concerne leur utilisation, transmission et partage, en particulier lorsque ces données sont à caractère personnel.

Si vous envisagez d'intégrer des Modèles de Langage (LLM) ou d'autres systèmes d'intelligence artificielle à vos activités, y compris dans le cadre du Web3, il est essentiel de bénéficier d'un accompagnement juridique spécialisé.

Les enjeux liés à la conformité et à la régulation sont considérables.

Avant de vous engager, notamment pour les initiatives Web3, pensez à la valeur ajoutée d'une expertise juridique.

Les investisseurs accordent de plus en plus d'importance à la qualité des conseils juridiques entourant un projet, garantissant ainsi sa conformité à une réglementation numérique et Web3 en constante évolution.

Publié le 23 Septembre 2023

Véronique RONDEAU-ABOULY

Avocat Blockchain et DPO externe.

La rédaction de cet article a été conçue et organisée pour vous soumettre des informations utiles, des axes de réflexion pour une utilisation personnelle ou à visée professionnelle.

Il est mis à jour régulièrement, mais dans un contexte réglementaire et jurisprudentiel évoluant, nous soulignons que nous ne pouvons être responsables de toute péremption du contenu, ou de toute erreur juridique et/ou inexactitude qui pourrait se révéler en fonction de l’évolution, le lecteur voudra bien considérer qu’en tout état de cause, pour une application personnalisée, chaque cas est unique et que bien sûr, le cabinet reste à votre disposition si vous avez une question précise à poser en lien avec cet article, nous nous ferons un plaisir de collaborer avec vous, n’hésitez pas à prendre contact ou à nous téléphoner.

Mots Clefs :LLM – ChatGPT -Droit d’auteur - Intelligence Artificielle (IA)

Réglementation européenne- Propriété Intellectuelle (CPI) -

Rémunération des auteurs- Data Mining (TDM) – Transparence – Gouvernance des données- Web3 -Compliance- Neurones artificielles -

Retour