
Une exception « AI Model Component » dans les licences Open Source
Ce qu’il faut retenir
- Les poids d’un modèle d’IA intégrés dans un logiciel libre sont fonctionnellement équivalents à du code objet et déterminent le comportement du programme mais ne sont pas modifiables sans les informations qui ont permis de les produire.
- Les licences libres actuelles ne saisissent pas cette réalité : le copyleft s’arrête au code, laissant les composants IA dans un angle mort.
- Cette « AI Model Component Exception » qui étend les obligations existantes aux composants de modèles d’IA.
Dans notre article consacré aux définitions de l’IA open source de la série « Open Source et IA », nous avons montré que les licences Open Source peinent actuellement à saisir les enjeux de l’ouverture en matière d’IA. Les licences Open Data telle que l’ODbL constituent une piste « principale » qui permet de couvrir à la fois la base de données d’entrainement et potentiellement le modèle d’IA lui-même. En complément, et pour rapprocher du mouvement du logiciel libre et Open Source, il avait aussi été développé l’idée d’une exception aux licences Open Source qui, tel un avenant, viendrait étendre les obligations relatives aux modèles d’IA intégrés au code.
Cet article vient matérialiser cette idée en proposant une clause concrète : l’AI Model Component Exception. Il s’agit d’une exception additionnelle, rédigée en anglais pour être directement utilisable sur toute licence Open Source existante.
Situer le contexte : un logiciel libre avec un composant opaque
Le postulat initial, qui justifie la démarche, est qu’un logiciel libre/Open Source intégrant de l’IA n’est pas réellement libre au sens où les détenteurs d’une copie ne peuvent que partiellement bénéficier des libertés attendues.
Le code est sous GPL-3.0 ou Apache-2.0, les dépendances sont documentées, le SBOM est propre. Mais le modèle d’IA utilisé ne partage pas sa « recette » — les poids, les embeddings, les fichiers de calibration — alors que seule cette dernière permet de comprendre le comportement du programme.
La situation est strictement analogue à celle qui a motivé chaque extension majeure du copyleft dans l’histoire des licences libres :
| Problème historique | Mécanisme de réponse | Analogie avec l’IA |
|---|---|---|
| Tivoisation (vérifier la signature du logiciel embarqué afin que seule la version du fabricant fonctionne sur le matériel) | GPLv3, section 6 (obligation de fournir les clés de signature et informations d’installation) | Distribuer les poids sans les données ni les scripts d’entraînement, c’est distribuer un binaire sans le source |
| ASP Loophole (utiliser un logiciel libre en SaaS sans jamais « distribuer » les source correspdondante) | AGPL-3.0, section 13 (obligation d’accès au code pour les utilisateurs réseau) | Utiliser un modèle via une API sans jamais fournir les informations de modification |
| Verrouillage des bibliothèques (intégrer une bibliothèque libre dans une application propriétaire sans fournir les informations d’interface pour faire tourner une bibliothèque modifiée) | LGPLv3, section 4 (obligation de fournir le « Corresponding Application Code » et les informations d’interface) | Intégrer un modèle libre dans un logiciel sans fournir ce qui permet de le modifier ou le remplacer |
Le dénominateur commun est le même : une partie du logiciel est rendue effectivement non-libre faute d’information pour la modifier pleinement, alors que la licence formelle est libre. La clause anti-tivoisation, la clause Affero et le mécanisme LGPL ont chacun clarifié que les obligations existantes s’étendaient à ces situations en levant les ambiguïtés que l’évolution technique avait créées.
Les poids d’un modèle d’IA intégrés dans un logiciel sont fonctionnellement équivalents à du code objet. Ils déterminent le comportement du programme mais ne sont pas modifiables sans les informations qui ont permis de les produire (architecture, scripts d’entraînement, données, hyperparamètres). Cette analogie, proposée notamment par Andrew Marble, est partagée par une partie croissante de la communauté : les poids sont le « object code » du modèle, les données et scripts d’entraînement en sont le « source code ».
Aujourd’hui, aucune cour n’a encore jugé si les poids d’un modèle entraîné sur des données sous licence copyleft constituent une « œuvre dérivée » au sens du droit d’auteur. La question est complexe et fait l’objet de travaux académiques et de contentieux en cours. Les 16 millions de fichiers GPL/AGPL trouvés dans les datasets d’entraînement posent le problème de manière aiguë.
En ajoutant aux licences Copyleft une exception qui vient interpréter et lever toutes ambiguité quant à la nécessitgé de partager les informations du modèle, l’obligation naît du contrat de licence, pas d’une qualification juridique encore débattue. Cette approche se situe dans un espace précis :
- Moins radicale que la position de la FSF, qui estime qu’une application d’apprentissage machine libre induit que le code d’entraînement et les données d’entraînement doivent être libres (voir leur position officielle). La FSF et la Software Freedom Conservancy maintiennent une position ambitieuse (« FOSS in, FOSS out, FOSS throughout ») qui exige l’ouverture complète de toute la chaîne. Cette approche est factuellement plus proche de la situation qui combinerait une licence ODbL sur les bases de données d’entraînement et modèles + d’une licence Open Source copyleft avec l’exception).
- Plus conservatrice que le « Contextual Copyleft » proposé par Shanklin, Hine, Novelli et al. (juillet 2025), qui étend le copyleft des données d’entraînement aux modèles résultants — mais qui potentiellement impose de couvrir plus que le logiciel objet de la licence, ce qui pourrait être considéré comme contraire à l’OSD (qui pose notamment comme critère que la licence ne peut pas « contaminer » d’autres œuvres indépendantes).
- Complémentaire à la relance de copyleft-next par Bradley Kuhn et Richard Fontana (juillet 2025), qui vise à concevoir une licence copyleft de nouvelle génération. La proposition d’une exception qui vient lever l’ambiguité nous semble plus simple à mettre en oeuvre que d’attendre qu’une telle licence aboutisse (aussi intéressant que soit le projet).
Les deux concepts clés susceptibles d’être précisés
Le « Composant de Modèle d’IA » (AI Model Component) désigne toute partie du logiciel dont le comportement est déterminé, en tout ou partie, par un modèle d’apprentissage automatique : les paramètres entraînés (poids, biais, embeddings), les fichiers de configuration du modèle, les données de calibration, les tables de quantification, ou tout autre artefact dont la modification est nécessaire pour adapter le comportement de cette partie du programme.
Il fait partie du programme. Le fait que son comportement résulte de paramètres appris plutôt que d’instructions explicitement programmées ne modifie pas sa nature de logiciel et ne diminue pas les droits accordés aux destinataires par la licence applicable. Il est donc pleinement couvert par la licence Open Source associée au logiciel.
Le deuxième concept est celui des « Informations Correspondantes du Modèle » (Model Corresponding Information) qui concernent l’ensemble complet des informations, données et instructions raisonnablement nécessaires pour qu’une personne qualifiée puisse comprendre, reproduire, modifier et réintégrer le composant dans le programme : ce qui renvoit directement à la preferred form for making modifications, étendue aux spécificités de l’IA. Cela inclut :
- La spécification complète de l’architecture du modèle (topologie, configuration des couches, fonctions d’activation) dans un format documenté et lisible par machine ;
- Les paramètres entraînés (poids, biais) dans un format standard ou documenté ;
- Le code source complet des procédures d’entraînement, de fine-tuning et d’évaluation, y compris les pipelines de prétraitement ;
- La configuration d’entraînement (hyperparamètres, optimiseur, seeds aléatoires le cas échéant) ;
- Une description suffisamment détaillée des données d’entraînement — provenance, méthode de collecte, étapes de traitement — pour permettre de constituer un jeu de données fonctionnellement équivalent, ou les données elles-mêmes lorsqu’elles peuvent être légalement redistribuées ;
- Les instructions nécessaires pour réentraîner, fine-tuner ou remplacer le composant et le réintégrer dans le programme.
Le point (e) est intentionnellement flexible : lorsque les données ne peuvent pas être redistribuées (vie privée, droits d’auteur, volume), une description suffisante pour reconstituer un équivalent suffit. C’est une approche pragmatique, comparable à la manière dont la GPL demande les « scripts used to control compilation and installation » plutôt que le compilateur lui-même.
Le texte de l’exception
Cette proposition d’exception est rédigée en anglais comme permission additionnelle autonome, greffable sur toute licence libre via un mécanisme de renvoi à la « Licence applicable ». Elle ne dépend d’aucune licence spécifique.
AI Model Component Exception
Additional permission for software incorporating AI model components
The following additional permission applies to the software designated below (the « Program« ) and is granted by the copyright holder(s) of the Program. This permission supplements — and shall be read together with — the license under which the Program is distributed (the « Applicable License« ). To the extent that this permission conflicts with the Applicable License, the more protective provision prevails.
0. Definitions.
An « AI Model Component » means any part of the Program whose behavior is determined, in whole or in part, by a machine learning model — including but not limited to trained parameters (weights, biases, embeddings), model configuration files, calibration data, quantization tables, or any other artifact whose modification is necessary to adapt, correct, or improve the behavior of that part of the Program. For the avoidance of doubt, an AI Model Component is part of the Program; the fact that its behavior results from learned parameters rather than from explicitly programmed instructions does not alter its character as software or diminish the rights granted to recipients under the Applicable License.
The « Model Corresponding Information » for an AI Model Component means the complete set of information, data, and instructions reasonably necessary for a skilled person to understand, reproduce, modify, and reintegrate that Component into the Program — that is, the preferred form of the AI Model Component for making modifications to it. This includes, without limitation:
(a) the complete specification of the model architecture (topology, layer configuration, activation functions, normalization schemes) in a documented, machine-readable format;
(b) the trained parameters (weights, biases) in a standard or well-documented format;
(c) the complete source code of the training, fine-tuning, and evaluation procedures used to produce the distributed parameters, including data preprocessing and augmentation pipelines;
(d) the training configuration (hyperparameters, optimization settings, random seeds where deterministic reproduction is feasible);
(e) a sufficiently detailed description of the training data — including its provenance, collection method, and processing steps — to enable a reasonably skilled person to assemble a functionally equivalent dataset, or the training data itself where it can be lawfully redistributed; and
(f) the instructions necessary to retrain, fine-tune, or replace the AI Model Component and to reintegrate the modified version into the Program, such that the Program functions with the modified Component in the same manner as it functioned with the original.
1. Obligation to provide Model Corresponding Information.
If the Program includes one or more AI Model Components, any person who distributes or otherwise makes available the Program (or any work based on it) must, in addition to fulfilling all obligations under the Applicable License, provide the Model Corresponding Information for each such Component. This information must be made available under the same conditions, through the same means, and at the same time as the source code (or equivalent material) required by the Applicable License.
This obligation applies regardless of the form in which the AI Model Component is distributed — whether as source code, binary files, serialized parameters, compiled or optimized intermediate representations, or any other form.
2. Scope and limitations.
This additional permission applies solely to AI Model Components that form an integral part of the Program — that is, components without which the Program would not function as intended, or whose removal would materially alter the behavior of the Program. It does not extend to:
(a) independent AI models merely aggregated with the Program on a volume of storage or distribution medium; or
(b) AI models invoked by the Program as separate and independent works through standard, publicly documented interfaces (including but not limited to APIs and network calls).
This permission creates no obligation with respect to outputs produced by the Program, nor with respect to AI models generated through the use of the Program as a tool. It pertains exclusively to components of the Program itself.
Where the provision of any element of the Model Corresponding Information is prevented by a legal impediment independent of the distributor’s will — in particular, obligations arising under data protection law or the sui generis database right — the distributor must provide all elements not so affected, together with a documented description of the missing elements and the precise legal grounds for their omission, so as to enable the recipient to reconstitute or independently obtain such elements.
3. No further restrictions.
The Model Corresponding Information must be provided under terms no more restrictive than the Applicable License. You may not impose any further restrictions on the exercise of the rights granted under the Applicable License with respect to the Model Corresponding Information — including by way of additional contractual obligations, technical protection measures, access controls, or terms of use that would prevent recipients from using, studying, modifying, or redistributing such information. Any such restriction shall be deemed a further restriction within the meaning of the Applicable License, and shall be void and of no effect to the maximum extent permitted by applicable law.
À noter que :
- Cette proposition d’exception reprend la distinction classique du droit des licences libres entre « œuvre dérivée » et « simple agrégation ». Un modèle intégré au programme (sans lequel celui-ci ne fonctionnerait pas comme prévu) est un composant du programme et déclenche l’obligation. Un modèle agrégé sur le même support de distribution, ou appelé via une API publique, reste une œuvre indépendante non couverte par l’exception. C’est la transposition, pour l’IA, de la frontière entre linking et aggregation en matière de copyleft logiciel.
- L’exception légale (section 2, alinéa final) : elle reconnaît qu’en pratique, certains éléments des informations correspondantes (données personnelles, bases de données protégées par le droit sui generis) ne pourront pas toujours être redistribués.Elle impose une obligation documentaire : fournir tout ce qui peut l’être, et documenter précisément ce qui manque et pourquoi. Cette approche est inspirée de la manière dont le RGPD et la directive 2019/790 (TDM) coexistent dans la pratique : les obligations se superposent, et c’est la transparence sur les limites qui permet la conformité.
- La clause « no further restrictions » (section 3) est directement inspirée de la GPL-3.0, section 10 (« You may not impose any further restrictions on the exercise of the rights granted or affirmed under this License »). Elle interdit les restrictions contractuelles, techniques (DRM, access controls) ou conditionnelles sur les informations correspondantes du modèle. C’est un garde-fou contre l’open-washing : publier les poids sous licence libre tout en rendant les informations d’entraînement inaccessibles via des conditions d’utilisation restrictives. Elle peut être redondante avec certaines licences Open Source contenant déjà ces type de clause.
Conclusion — Clarifier, pas créer
Cette proposition d’exception « interprétative » est ainsi à la fois un outil de gouvernance open source et un outil de conformité réglementaire. Les deux logiques convergent : garantir que les utilisateurs disposent des informations nécessaires pour comprendre, modifier et auditer le logiciel qu’ils utilisent. Elle s’articule naturellement et complète les exigences des trois règlements européens analysés dans notre article sur l’articulation CRA/RIA/NPLD :
- Le RIA (art. 53.1) impose aux fournisseurs de modèles GPAI de mettre à disposition une « documentation technique suffisamment détaillée » et les informations sur les données d’entraînement. Les « Model Corresponding Information » dépasse cette attente ;
- Le CRA impose des SBOM et de la traçabilité. L’exception complète le SBOM logiciel par un inventaire des composants de modèle.
- La NPLD étend la responsabilité produit aux logiciels. Documenter les composants IA du logiciel renforce la traçabilité en cas de défaut (et protège le mainteneur qui a respecté ses obligations de transparence).
Cette proposition d’une AI Model Component Exception ne crée pas d’obligation nouvelle. Elle clarifie que les obligations existantes de toute licence Open Source copyleft (fournir les informations nécessaires pour exercer les libertés sur le logiciel) s’étendent naturellement aux composants de modèles d’IA, de la même manière que la clause anti-tivoisation a clarifié l’extension aux matériels verrouillés, et que la clause Affero a clarifié l’extension aux services réseau. Ainsi, si un composant de modèle d’IA détermine le comportement du programme, alors les informations nécessaires pour modifier ce composant font partie du code source au sens large (et doivent être fournies aux mêmes conditions).
L’exception est publiée sous licence CC 0. Elle est conçue pour être adoptée, adaptée et discutée par la communauté. Nous invitons les mainteneurs, les fondations et les juristes à l’évaluer, la critiquer et la faire évoluer. Elle pourra être utilisée à l’instar des autres exceptions Open Source (NomdelaLicence WITH Nomdelexception, par ex. GPL-3.0 WITH AI Model Component Exception).
Crédit de l’illustration : Remix de @2006, Señor Codo, blotter_explosion. This file is licensed under the Creative Commons Attribution-Share Alike 2.0 Generic license.

