C'est un débat qui est presque passé inaperçu tant le battage médiatique autour de ChatGPT a été intense. Mais il devrait assez rapidement remonter à la surface tant les enjeux qu'il recouvre sont considérables. La problématique ? ChatGPT a été entrainé par OpenAI sur des millions de contenus web : Wikipedia, articles, livres numériques, etc. Y compris sur des contenus protégés par des copyrights ? OpenAI a-t-il dérapé en omettant de prendre en compte cette dimension juridique ? "Il a privilégié la vitesse à la conformité réglementaire. Il était hors de question pour lui d'investir trop dans le data set. Cela aurait été une perte de temps dans sa course à l'innovation (notamment face à des poids-lourd comme Google ou Meta, ndlr). Du coup, OpenAI a pris tout ce qu'il a pu trouver sur le web", estimeStéphane Roder, fondateur et CEO du cabinet de conseil français AI Builders.
Noeud juridique
"Si une personne détient des droits d'auteur sur des données utilisées pour former une IA, cela lui donne-t-elle de facto un droit sur le modèle ou le contenu créé par ce modèle ? Toute la question est là", résume Andres Guadamuz, universitaire en IA et en droit de la propriété intellectuelle à l'Université du Sussex au Royaume-Uni. Il semble bien que le droit d'auteur puisse ici s'appliquer si le créateur prouve que la contribution humaine est substantielle. "Si vous donnez à une IA dix romans de Stephen King à lire et que vous lui demandez ensuite de produire un roman dans le style de Stephen King, vous vous mettez directement en concurrence avec l'auteur. C'est effectivement un nœud juridique", argue Daniel Gervais, professeur à la Vanderbilt Law School aux Etats-Unis.
A voir aussi : Meta va tester un outil publicitaire utilisant l'IA générative
"Les éditeurs de LLM commencent tous à plancher plus sérieusement sur le sujet"
Certes, il existe des milliers de data sets reposant sur des licences ouvertes qui évitent par ricochet tout problème de copyright. Rien qu'en France on en compte plusieurs centaines publiés en open data par l'administration ou certaines entreprises. Leur volume reste néanmoins largement insuffisant pour entraîner un large language model (LLM) comme celui de ChatGPT. "Face à cette problématique, les éditeurs de LLM commencent désormais tous (y compris OpenAI, ndlr) à plancher plus sérieusement sur leurs data sets de pré-entrainement. Mais c'est un long chemin", explique Stéphane Roder chez AI Builders.
A lire en complément : Stellantis et Samsung SDI vont investir 2,5 milliards de dollars dans une usine de batteries aux États-Unis
Evidemment, tous les usages de ChatGPT ne sont pas tributaires de contraintes juridiques. Dès ses API ouvertes, il sera par exemple possible de réentrainer ChatGPT sur une tâche précise, par exemple réaliser une optimisation ou une prédiction tarifaire ou commerciale. Celle-ci étant relative à des données d'apprentissage maîtrisées, elle n'engendrera pas de problème de copyright. "Ici, on aura simplement recours aux capacités de ChatGPT à faire de l'inférence et dérouler un argumentaire avec un langage proche de celui d'un humain", explique Stéphane Roder. Reste à savoir si l'utilisation d'une IA aussi complexe et chronophage en ressources IT que ChatGPT se justifie dans un tel cas. Si l'action à réaliser est aussi spécifique, la réponse sera sans doute non. Nul besoin en effet d'exploiter la connaissance universelle de l'assistant d'OpenAI pour gérer une prédiction tarifaire.
Vers une nouvelle économie
"En revanche, si ChatGPT est utilisé pour ce qu'il est, c'est-à-dire une IA généraliste, il devient alors nécessaire d'expurger ses data sets de pré-entraînement de tout contenu concerné par un droit d'auteur", insiste Stéphane Roder. Selon le consultant, ce mécanisme ne va pas se mettre en place immédiatement, mais s'inscrire dans la durée. "Les ayants droit vont se faire connaître petit à petit en imposant ce process d'ingénierie juridique." Partant de là, tout travail mérite salaire. Résultat : des data sets payants expurgés de toute données copyrightées vont voir le jour. "C'est mécanique", prédit Stéphane Roder.
Pour le CEO d'AI Builders, des acteurs spécialisés vont émerger. Des acteurs qui auront pour mission de garantir la conformité juridique des data sets, mais aussi leur qualité technique. "Les données d'apprentissage récupérées sur le web contiennent des doublons. Une dépêche AFP est par exemple répliquée sur de nombreux sites. Ce qui, au final, biaise les résultats. Les fournisseurs de data set auront également pour mission de réaliser ce travail d'affinage", complète Stéphane Roder. "Une fondation telle que Common Crawl qui joue ce rôle aujourd'hui va très certainement devenir une organisation à but lucratif tant les enjeux économiques sont importants." Ces nouveaux providers pourront par ailleurs proposer des data set portables d'un LLM à l'autre… et pas seulement limités à ChatGPT.