
Commons AI : un besoin essentiel d’accès à des données de qualité
Le 10 décembre 2025, la journée Commons AI a été dédiée à l’Intelligence Artificielle dans une démarche de communs. Elle s’est déroulée dans le cadre de l’évènement Future of Software Technologies, au CNIT de la Défense. Dans le cadre de cette journée, trois sessions ont été organisées afin de couvrir chacun des trois piliers des communs : 1/ ressource 2/communauté et 3/gouvernance. Les quinze interventions tout au long de la journée ont donné à voir des initiatives en cours et des pistes de solutions pour des IA plus respectueuses des principes d’ouverture et de communs. Chaque session a été l’occasion, en plus des interventions, d’échanges fructueux et dynamiques entre participant.e.s et audience.
Nous vous proposons sous forme de trois billets un retour global sur chaque session et un résumé des interventions.
Le premier billet est consacré à la session du matin portant sur les ressources, piliers des systèmes d’IA.
La première session de l’événement Commons AI a été consacrée à la question des ressources, au sens des différentes composantes nécessaires pour proposer des IA alternatives communautaires. Elle a articulé quatre interventions (OpenLLMFrance, Pleias, Ekitia, IGN) apportant chacun regard complémentaire sur la place des données dans le développement d’IA. Les enjeux d’ouverture et de partage associés, y ont été abordés, notamment sur la question du régime des modèles, des implémentations logicielles existantes et des contraintes matérielles nécessaires.
Toutes les interventions se rejoignent sur le besoin essentiel d’accès à des données de qualité, ce qui demande un travail important de documentation. Le mouvement de l’open data est bien placée pour fournir ces données de qualité spécifiquement par le rôle majeur de contributeurs experts qui les « fabriquent ». C’est le cas par exemple des données de wikidata ou bien encore des données ouvertes fournies par l’IGN. Malheureusement ces données sont peu nombreuses par rapport à l’immensité des données du web qui sont scrapées pour entrainer les modèles d’IA. À ce titre, le corpus de jeux de données Common Corpus est une initiative majeure pour fournir des données ouvertes de qualité. Malgré une utilisation par de nombreux acteurs, les financements se font rares, voir inexistants pour maintenir ce corpus.
Des enjeux supplémentaires se rajoutent par rapport aux données. La gestion dynamique des données « opt out » est complexe. Ces données ne sont plus disponibles pour l’entrainement et doivent être enlevées du corpus. A l’heure actuelle, on assisterait à une nouvelle tragédie des communs avec de moins en moins de données ouvertes pour entrainer les IA (face aux craintes de pillage du web ouvert par les acteurs majeurs de l’IA). Lorsqu’on développe une IA ouverte et transparente française, le problème est encore plus grand, face au nombre minime de données en langue française par rapport à celles en anglais. Outre une question d’efficacité et de qualité des modèles d’IA en français, cela amplifie un phénomène hégémonique culturel en faveur de l’anglais, qui délaisse les spécificités d’autres langues ( modes de pensées et d’agir, bagage historique, etc.). À cela se rajoute les problématiques de conformité et de respect de la protection de données sensibles. Ainsi, développer et déployer une IA ouverte et éthique sur des données librement accessibles représente des défis organisationnels, éthiques et économiques majeurs.
Quelles sont les solutions possibles à mettre en œuvre ? Plusieurs pistes ont été soulevées, d’abord celle de se concentrer sur des modèles d’IA plus spécifiques concernant certains domaines par exemple celui de l’éducation (voir les travaux d’Open LLM). La création de données synthétiques notamment sur la base de données ouvertes est également une solution pour contrer le manque de données et cela s’associe bien avec une approche « domaine spécifique de l’IA » (voir le projet SYNTH de Pleias). D’un point de vue économique et organisationnel, une autre piste consiste en la proposition de data spaces qui permettent à des acteurs de mettre en commun dans un cadre de confiance des données spécifiques (voir les initiatives portées par Ekitia). Enfin, l’ensemble de ces interventions rappelle que des IA ouvertes et de qualité ne peuvent se faire sans un travail collaboratif entre différents corps de métiers, ingénieurs IA, curateurs-experts de données (à l’image d’IGN), juristes pour créer les cadres de collaborations adaptés, ce qui va à l’encontre de l’idée d’une IA qui gommerait tout besoin de dynamiques collectives.

Vous trouverez ci-dessous un résumé des interventions ainsi que l’audio et la présentation associée.
OpenLLM France : construire des IA ouvertes et transparentes françaises
Avec Julie Hunter (Linagora R&D)
L’initiative Open LLM France vise à construire une IA éthique et transparente. À la différence de la plupart des modèles d’IA aujourd’hui, le projet construit une IA complètement Open Source avec l’utilisation de licences Open Source et l’accès aux données d’entrainement. En effet aujourd’hui, la plupart des modèles IA partagent les poids des modèles (open weight), ce qui permet certes un fine tuning, mais manque de transparence et de contrôle sur les biais possibles. L’initiative, de plus a choisi de se concentrer sur un corpus de données de langue française, alors que les modèles sont largement entrainés sur de l’anglais (par exemple pour LLAMA V2 le français représentait 0,16 % des données). Cela pose une question de langue certes, mais surtout de sensibilité culturelle ancrée dans chaque langue. À l’heure actuelle, Open LLM France est en train de développer un nouveau modèle (à la suite de Lucie 7B) qui propose trois tailles (1B, 8B, 23B) et plus de 5T de tokens avec de nouvelles langues incluses (portugais, arabe, et.). Le modèle propose plusieurs phases d’entrainement notamment sur des aspects de maths et de raisonnement, qui sont particulièrement importants, car plusieurs cas d’étude du projet sont dédiés à l’éducation.
Ainsi les défis identifiés sont de plusieurs types :
- Avoir à utiliser des données du web qui sont souvent de faible qualité. Il est nécessaire de les filtrer de plusieurs manières et également de vérifier les règles d’utilisation associées. Les corpus de données déjà existantes telles que common pile et common corpus sont des bases solides.
- Faire face à plusieurs biais et des contenus toxiques qu’il est important de filtrer.
- Obtenir des données en français : peu de contenus français proposent une licence ouverte, même s’il y a des données dans le domaine public celles-ci ne sont pas forcément accessibles directement (besoin d’OCRisation) et la quantité reste très faible.
- Avoir accès à des données post entrainement : elles se révèlent difficiles à acquérir sont peu ouvertes et encore moins en français.
Lien vers l’audio (en anglais)
Lien vers la présentation
Open data flows : penser les infrastructures d’intelligence artificielle après le tournant des données synthétiques.
Avec Pierre Carl Langlais (Pleias)
Pleias est une start-up française, engagée dans le développement et l’entrainement d’IA en prenant en compte plusieurs enjeux clefs : la qualité des données, l’efficacité du modèle et la prise en compte des risques de sécurité et de conformité.
Pour cela, Pleias s’appuie sur des modèles de fondation frugaux et milite pour l’accès à des données ouvertes (sans copyright). La start-up est notamment connue pour le développement d’un corpus totalement ouvert de données de pré-entraînement dénommé Common Corpus avec plus de 500 millions de documents associés à une licence ouverte. Common Corpus a été téléchargé plus de 700 000 fois.
La question des données d’entrainement est cruciale et peu souvent abordée. Plusieurs problématiques se posent aujourd’hui autour des données d’entrainement, déjà, elles reposent principalement sur des données du web qui sont généralement de très mauvaise qualité et difficiles à filtrer à grande échelle. Ensuite, il faut savoir que la plupart des grands modèles ont été ou sont entrainés sur des sources pirates. Les déployeurs de ces solutions sont donc amenés à porter plusieurs responsabilités : production de contenu protégé par le droit d’auteur, alignement avec les réglementations attendues et normes du pays, reproduction de contenus de données existantes dans le corpus entrainé.
Cette situation amène à un effet encore plus pervers pour Internet et l’open web que l’on peut associer à une tragédie des communs. Les données ouvertes subissent une refermeture importante face aux craintes de pillage, ce qui appauvrit encore plus le corpus de données disponibles. En Europe, le fait de n’avoir pas de principes de fair use amplifie encore plus ce phénomène.
Malgré les efforts mis dans le développement de Common Corpus par Pleias et son usage massif, il est aujourd’hui extrêmement difficile de financer une telle initiative.
Une autre piste se dessine pour continuer à déployer des systèmes d’IA basés sur des données de qualité et fiable : celle du passage à des environnements synthétiques d’entrainement. L’utilisation d’environnement synthétique permet un contrôle des données et une efficacité accrue sur des tâches bien spécifiques. Les mathématiques et le développement de code source sont les domaines principaux d’usage d’environnements synthétiques par leur association à une logique formelle. Ces environnements nécessitent des données de haute qualité et documentées, ce qui donne une place importante à des données ouvertes telles que celles de wikidata (utilisation par exemple par Ali Baba Deep Research). Les jeux de données ouverts souvent petits auront la capacité d’être amplifié et rendre viable pour le pré-entrainement ce nouvel ensemble. Les données synthétiques permettent aussi de contourner la problématique de protection des données sensibles en créant par exemple des personas sur de telles données.
Par ailleurs, le développent des agents IA, va s’amplifier par la possibilité de réintégration du modèle en lui-même comme produit de l’agent. Ces environnements synthétiques vont pouvoir être également grandement employés pour des domaines spécifiques et connecter ces domaines entre eux. Pleias se positionne dans le champ des environnements synthétiques avec la création de SYNHT. Sur la base des articles de Wikipedia un processus d’amplification est mis en œuvre (upsampled rephrasing).
Lien vers l’audio (en anglais)
Lien vers la présentation.
Espaces de données et biens communs numériques : construire un marché de l’IA responsable, transparent et inclusif
Avec Bertrand Monthubert et Pauline Zordan (Ekitia)
Ekitia est une association qui regroupe différentes organisations publiques, privées et académiques afin de créer des cadres de confiance pour faciliter le partage de données. Accéder à des données est une pierre angulaire du développement d’IA et se révèle pavé d’obstacles. Il s’agit de construire une relation de confiance entre acteurs qui souhaitent partager des données, et le faire dans un contexte équitable, ce qui s’associe souvent à de nombreux mois de négociations et souvent pour un contrat unique. Cela met aussi de côté de plus petits acteurs qui n’ont pas cette force de négociation.
Plusieurs obstacles communs ont été étudiés par Ekitia, dans trois secteurs différents la santé et la recherche, le milieu du handicap, et celui de l’emploi. En premier lieu, le partage de données est rendu difficile par des règles de protection et de confidentialité sur les données, ensuite, il s’agit de réfléchir à une rémunération juste des personnes qui contribuent à ces données. Enfin, les questions d’interopérabilité technique sont majeures.
Pour Ekitia, les data spaces (espaces de données) de confiance sont une solution possible qui garantit à la fois une infrastructure commune facile à accéder et les règles de gouvernance associées à la gestion des données. La dimension de communs est très importante pour penser cette gouvernance et mettre en œuvre les moyens nécessaires en s’appuyant sur des standards interopérables.
Pour cela, un règlement « rulebook » a été mis en place par Ekitia pour gérer les conditions d’utilisation et de réutilisation de ressources numériques en prenant en considération les aspects organisationnels, contractuels et techniques dans une démarche. À l’heure actuelle, Ekitia a développé dans une démarche collaborative un rulebook éthique (en cours de test) et un règlement légal sur la base des grands règlements actuels (RGPD, IA Act, DGA, code pénal, etc.). Ces deux projets ont pour ambition d’être améliorés par la création de partenariats autour de ces initiatives.
Lien vers l’audio (en anglais)
Lien vers la présentation
Que faut-il pour créer des systèmes d’IA efficaces pour la cartographie au service de l’environnement ?
Avec Bertrand Pailhès (IGN)
L’IGN (Institut National de l’Information Géographique et Forestière) a pour mission de cartographier le territoire français pour des raisons principalement environnementales, mais aussi militaires, agricoles ou d’aménagement. L’institut participe à l’accès à des données cartographiques de qualité et ouvertes (open data). L’approche des communs fait partie aussi des ambitions de l’IGN avec un projet tel que Panoramax qui permet de photo-cartographier collectivement les territoires (notamment dans des zones géographiques que Google Maps ne cartographierait jamais).
L’IGN suit de près les dynamiques nouvelles associées à l’IA. L’IA est ainsi employée au sein de l’institut pour, par exemple surveiller l’artificialisation des terres. Cette tâche qui prenait beaucoup de temps auparavant a pu être complétée rapidement avec l’IA.
Développer de l’IA au sein de l’IGN a nécessité de construire une feuille de route (feuille de route IA IGN 2022-2024) et d’y associer les ressources nécessaires que ce soit en termes d’infrastructures ou de compétences professionnelles.
Pour construire des jeux de données adéquates et de qualité pour entrainer des IA, un travail important d’annotation est nécessaire par les professionnels du terrain qui détiennent les compétences et les expertises (par exemple pour identifier et nommer de nombreuses essences d’arbres.) Il s’agit ainsi de construire une approche en commun entre les ingénieurs IA et les techniciens et opérateurs de terrain.
Aujourd’hui, l’IGN développe aussi ses propres modèles de fondation qui feront l’objet de publications aussi bien sur les données que sur le modèle.
Lien vers l’audio (en anglais)
Lien vers la présentation.
Merci à l’ensemble des intervenant.e.s, à Ramya Chandrasekhar pour la modération de cette session et aux organisateurs et organisatrices de FOST pour avoir accueilli l’événement.

