Alors que des gouvernements partout dans le monde sont en train de comprendre comment réglementer l'intelligence artificielle (« IA »), les défis concernant son utilisation s'intensifient dans le monde réel. Avec le développement et la diffusion de systèmes d'IA générative utilisant des modèles de langage pour créer des œuvres d'art, de la musique et divers contenus, les inquiétudes relatives à la protection des droits d'auteur se font de plus en plus vives.
S'il y a peu près un an, les premières affaires juridiques opposant le droit d'auteur et l’IA (aux États-Unis et au Royaume-Uni) ont émergé, le nombre de litiges opposant le droit d'auteur et l'IA s'est désormais multiplié. Aux États-Unis, des particuliers aussi bien que des grandes entreprises contestent l'utilisation de leur travail par les fournisseurs d’IA pour l’entraînement de leurs machines1.
En France, le secteur culturel a les mêmes inquiétudes. Le 17 novembre dernier, 80 organisations des secteurs de l'audiovisuel, de l'édition, de la musique, des arts visuels et de la photographie ont soumis au gouvernement français un texte demandant la transparence des données d'entraînement et des contenus générés par les modèles d'intelligence générative, la considérant comme un impératif absolu pour le développement d'une IA éthique.
Il semble que leurs revendications aient été satisfaites par le Parlement européen et le Conseil. En effet, le 9 décembre dernier2, ils sont parvenus à un accord provisoire sur l’AI Act maintenant les obligations de transparence pour les systèmes d'IA à finalité générative. Ces obligations incluent l'élaboration d'une documentation technique, le respect de la législation européenne sur les droits d'auteur, ainsi que la diffusion de résumés détaillés sur le contenu utilisé pour leur formation.
Néanmoins, la question de la transparence des systèmes d'IA demeure l'une des préoccupations majeures à l'intersection des droits de propriété intellectuelle (« PI ») et de l'IA. Dans ce contexte, nous nous interrogeons sur la possibilité d'atteindre la transparence dans le domaine de l'IA conformément aux demandes des auteurs et aux exigences du Parlement européen. Si cela est possible, une telle transparence serait-elle suffisante pour promouvoir le développement d'une IA novatrice tout en préservant les droits d'auteur et les autres droits de propriété intellectuelle ?
Les systèmes d'IA générative sont de grands modèles pré-entraînés qui servent de point de départ à des applications ultérieures dans divers domaines. En raison de leur nature, de vastes ensembles de données contenant souvent de grandes quantités de contenus protégés par le droit d'auteur sont nécessaires pour l'entraînement. C’est précisément cela qui qui est au cœur du conflit entre les auteurs et les développeurs d'IA et qui constitue également la base des récentes réclamations des auteurs français.
Dans ce contexte, dans le texte récemment transmis au gouvernement français, les auteurs considèrent que « seul le principe intangible d’une transparence sur les données d’entraînement et sur les contenus générés pourra apporter des garanties aux citoyens et aux créateurs sur le respect de leurs droits ». Le texte exprime également « l'étonnement » des auteurs face à la prétendue position récente de la France concernant la régulation des modèles de fondation.
Au cours des négociations finales du "trilogue" européen visant à approuver la version finale de l'AI Act, la France, l'Allemagne et l'Italie seraient parvenues à un accord pour « l'autorégulation obligatoire par le biais de codes de conduite », selon un document non officiel auquel Reuters affirme avoir eu accès. Le document soulignerait également que les développeurs de modèles de base devraient définir des cartes de modèle pour fournir des informations sur leur modèle d'apprentissage automatique. En outre, un organe de gouvernance de l'IA contribuerait à l'élaboration de lignes directrices et vérifierait l'application des fiches de modèle, sans qu'aucune sanction ne soit imposée initialement, selon le document.
Les trois pays ont en effet engagé des discussions approfondies pour renforcer leur coopération dans le domaine de l'IA et se sont « convenus de la nécessité de réduire les charges administratives et de simplifier les procédures européennes concernant les projets qui concernent plusieurs États membres »3 . Toutefois, les conditions spécifiques de cette coopération n'ont pas été confirmées. Toutefois, bien que la position adoptée par les ministres français, allemand et italien puisse suggérer qu'ils ne seraient pas favorables à l'imposition d'obligations de transparence sur les droits d'auteur, elle n'a pas été incorporée dans l'accord provisoire de l’AI Act récemment adopté par le Parlement européen et le Conseil.
En ce sens, cet accord provisoire maintient les conditions du texte de l’AI Act voté en juin 2023 par le Parlement européen, qui exige non seulement que les fournisseurs d'IA informent si le contenu a été généré ou manipulé artificiellement (en vertu de l'article 52.3), ainsi qu'ils précisent si les données utilisées pour alimenter le système d'IA générative en ce qu’elles sont protégées par le droit d'auteur ou non. Les fournisseurs d'IA générative sont également tenus de publier un résumé suffisamment détaillé des utilisations concernant des œuvres protégées par le droit d'auteur en vertu de l'article 28 ter4.5
À mesure que l'IA progresse, son intersection avec la propriété intellectuelle, en particulier le droit d'auteur, devient de plus en plus évidente. Bien que la relation entre la propriété intellectuelle et l'intelligence artificielle doit être réciproque, leur chevauchement peut être conflictuel, notamment en ce qui concerne l'utilisation de contenus protégés par le droit d'auteur pour la formation à l'intelligence artificielle et le manque de transparence qui en découle.
En ce sens, bien que l'utilisation de matériel protégé par le droit d'auteur dans l’entraînement des systèmes d'IA puisse faire l'objet d'une exception obligatoire créée par le législateur européen à travers les articles 3 et 4 de la directive 2019/7906, l'identification de ce matériel et de ses créateurs ou titulaire de droits est actuellement un véritable problème. Malgré l’institution de leur droit de retrait par le législateur, son mise en œuvre pourrait s'avérer très complexe dans le contexte de l'IA.
La problématique centrale réside à la fois dans l'utilisation inévitable de données protégées par le droit d'auteur pour l'entraînement des systèmes d'IA, ainsi que dans les obstacles substantiels actuels pour les suivre. En effet, les modèles d'IA générative nécessitent généralement d'énormes et variées quantités de données extraites de l'ensemble de l'internet pour générer de nouveaux contenus7.
D’un côté, le volume et la variété des données utilisées en tant qu’input occultent leur origine, tandis que de l’autre, c’est la nature même du droit d'auteur contribue à la difficulté de satisfaire les demandes de transparence des auteurs, ainsi qu'à l'obligation de transparence telle qu’imposée par l'article 28 ter du texte de l’AI Act du Parlement européen.
Tout d'abord, tant donnée que la protection du droit d'auteur peut s’étendre à un large éventail de contenus, ces conditions de transparence créeraient d’importantes complexités administratives pour les fournisseurs de modèles de base. En effet, une énorme quantité de contenus devrait être documentée et divulguée. De plus, étant donné que les critères pour vérifier si la protection par le droit d'auteur s'applique ou non sont subjectives, les fournisseurs de modèles de base pourraient ne pas être dans la meilleure position pour déterminer si le contenu utilisé pour trainer leurs machines est protégé ou non par le droit d'auteur.
Ainsi, la possibilité de divulguer les données d’entraînement, que ce soit pour des raisons technologiques ou juridiques, demeure incertaine. Par conséquent, il se peut qu'il n'y ait pas de moyen pratique pour un titulaire de droits d'auteur de vérifier si ses œuvres ont été utilisées dans l'entraînement de données à des fins commerciales ou si son opposition à l'entraînement de données à des fins commerciales a été efficace. Cette incertitude remet en question l'efficacité de l'imposition d'obligations de transparence aux développeurs d'IA.
Il semble que la demande de transparence formulée par les auteurs français et les obligations de transparence imposées par le Parlement européen et le Conseil reposent sur une compréhension erronée de la fonction des systèmes d'IA. Étant actuellement très difficiles à respecter, il y a une crainte que ces mesures n'entravent l'innovation en matière d'IA dans l'UE. C'est pourquoi davantage de directives sur leur mise en œuvre sont grandement nécessaires, en particulier en ce qui concerne l'interprétation du concept de « résumé suffisamment détaillé ».
Comme pour toute technologie de rupture, il est normal que le développement de l'IA suscite à la fois des appréhensions et de grandes attentes, d’où la compréhensibilité des inquiétudes exprimées par les auteurs. Cependant, l'IA ne doit pas être diabolisée, au contraire, elle doit être perçue et utilisée comme un outil pour encourager notre créativité.
Dans cette optique, afin de favoriser les intérêts des auteurs et des titulaires de droits d'auteur, une solution viable pourrait être trouvée en établissant des accords entre les développeurs d'IA, les sociétés de gestion collective, les entreprises culturelles et de divertissement, ainsi que les auteurs ou les titulaires de droits d'auteur eux-mêmes, à l'instar du récent accord collectif signé par la Writers Guild of America (WGA) et les producteurs hollywoodiens garantissant les droits des scénaristes face à l'utilisation générative de l'IA dans les productions audiovisuelles8.
Ces accords réglementeraient l'utilisation de l'IA dans la création de produits culturels et devraient inclure une rémunération équitable due aux auteurs et/ou les titulaires de droits d'auteur, en fonction de la réalité et des besoins spécifiques de chaque secteur culturel. Nous croyons que ces mesures peuvent favoriser l'innovation tout en encourageant nos auteurs à continuer à créer, favorisant ainsi une coexistence harmonieuse de la création et de l'innovation.
1 Par exemple, en octobre 2023, Universal Music, ABKCO et Concord Publishing ont assigné la la société d'intelligence artificielle Anthropic devant le tribunal fédéral du Tennesse, l'accusant d'avoir utilisé abusivement d'un grand nombre de paroles de chansons protégées par le droit d'auteur pour entraîner son chatbot « Claude ». En septembre 2023, l'Authors Guild (un groupe représentant un grand nombre d'auteurs aux États-Unis) et des auteurs comme George RR Martin et John Grisham, les auteurs des romans sur lesquels est basée la série télévisée "Game of Thrones", ont assigné OpenAI dans le district sud de New York, invoquant une violation des droits d'auteur face à l'utilisation non autorisée de leurs œuvres afin d'entraîner son modèle de langage, ChatGPT.
2 Suite à des mois de négociations entre la Commission européenne, le Conseil de l'UE et le Parlement européen (le "trilogue"), un accord provisoire sur l’AI Act a finalement été conclu samedi dernier, le 9 décembre 2023. Pour d'autres informations sur l'AI Act.
3 Comme indiqué dans le communiqué de presse conjoint de la France, de l'Allemagne et de l'Italie du 30 octobre 2023.
4 Nous nous référons aux articles du texte approuvé en juin par le Parlement européen. Veuillez noter que le texte approuvé par le Parlement et le Conseil doit encore être formellement adopté par ceux-ci pour devenir un règlement de l'UE.
5 Voir "File Regulation on AI" et "MEPs ready to negotiate first-ever rules for safe and transparent AI".
6 Les articles 3 et 4 de la directive 2019/790 du Parlement européen et du Conseil relative au droit d'auteur et aux droits voisins dans le marché unique numérique (adoptée le 17 avril 2019) ont créé une exception sur la reproduction de contenus protégés par le droit d'auteur à des fins de « text and data mining », ce qui concerne la collecte de données pour les transformer. L'article 3, déjà existant en droit français, est une exception obligatoire, bénéficiant aux organismes de recherche et aux institutions du patrimoine culturel effectuant une fouille à des fins de recherche scientifique, à laquelle les titulaires de droits ne peuvent s'opposer. L'article 4, transposé en droit français par l'ordonnance n° 2021-1518 du 24 novembre 2021, étend l'exception à toutes les utilisations, quelle que soit la finalité (y compris commerciale), sous réserve que le titulaire du droit d'auteur n'ait pas manifesté d'opposition.
7 Sauf pour les systèmes limités et spécifiques, dont le champ d'application est limité et la formation des données repose sur des données spécifiques.
8 Le 27 septembre 2023, la WGA a conclu un accord préliminaire avec les producteurs de l'AMPTP (Alliance of Motion Picture and Television Producers) à l'issue d'une grève de 148 jours. Cet accord comprend des engagements clés de la part des producteurs : veiller à ce que les scénaristes ne soient pas remplacés par l'IA, permettre aux auteurs d'utiliser l'IA avec l'approbation de l'employeur sans diminuer leur rémunération finale ; interdire aux développeurs d'IA d'utiliser des scénarios rédigés par des scénaristes syndiqués pour former leurs robots ; et programmer des réunions semestrielles avec la WGA pour discuter de l'utilisation de l'IA dans le développement et la production de films. Un accord parallèle a également été conclu avec les acteurs au début du mois de novembre 2023, visant spécifiquement à empêcher l'utilisation de leurs images pour l'entraînement des systèmes d'IA.