Mission Bothorel : Rapport sur l’ouverture des données et des codes sources

18 janvier 2021

Le dernier trimestre 2020 a été un moment d’effervescence particulière pour divers acteurs impliqués dans les dynamiques d’ouverture des données et des codes sources en France. La raison ? La réalisation d’une mission relative à la politique publique des données en France coordonnée par le député Eric Bothorel, lui-même mandaté par le Premier Ministre en juin dernier.

De septembre à décembre, une enquête a ainsi été menée auprès de différents ministères, instituts, agences, fédérations, entreprises par le biais d’entretiens, de questionnaires et de rapports préliminaires. Une consultation publique lancée en novembre 2020 a recueilli également sur un mois différentes contributions et commentaires sur le rapport d’étape de l’étude et sur les cas d’usage analysés[1] auprès d’un plus large public.

Nous vous proposons par la suite un ensemble de trois billets ayant pour objectifs :

Billet 1 : une présentation générale du rapport de la mission Bothorel et des éléments clefs qui le composent.
Billet 2 : un retour sur quelques recommandations concernant les articulations entre puissance publique, société civile et communautés afin d’y apporter un éclairage et notre vision sur les éléments nécessaires au « soutien de communautés ».
Billet 3 : un focus tout particulier sur les propos et recommandations associés aux pratiques d’ouverture des codes sources au sein de l’Enseignement Supérieur et la Recherche (ESR).

Le premier billet, ci-dessous, consiste à donner un aperçu général du rapport, de ses finalités et des points clefs abordés. L’objectif n’est pas de faire une recension exhaustive de l’ensemble du rapport. Il s’agit plutôt d’en présenter les grandes lignes et de souligner les points particulièrement en cohérence avec les missions menées par le cabinet dans différents domaines (recherche, logiciels, développement territorial).

Cette « note de lecture » vient compléter de nombreux autres billets et prises de positionnement parus depuis la publication du rapport (par exemple le CNLL, Open Data France, APRIL, tribune « logiciel libre » parue dans Le Monde, etc.).

« Mission Bothorel » : une étude relative à la politique publique des données portée par le député Eric Bothorel

Le rapport volumineux, de plus de 200 pages, publié à la veille de Noël est richement documenté et présente de manière claire et didactique la situation actuelle de l’ouverture des données et des codes sources en France, plus de 4 ans après la promulgation de la loi pour une République Numérique (octobre 2016). Pour rappel, cette loi instaure une ouverture par défaut des données et des codes sources produits par l’administration publique.

L’enquête dresse un bilan des pratiques d’ouverture des données et des codes sources au sein des instituts publics et les actions à mettre en œuvre pour favoriser une meilleure circulation et réutilisation des données. En début de document, une synthèse résume les éléments clefs des 5 parties [1/ une politique au service de toutes les autres, 2/ ouverture des données et des codes sources publics, 3/ pour une donnée ouverte à tous les usages, 4/ se donner les moyens de nos ambitions, 5/ les données d’intérêt général] du rapport et introduit un ensemble de 37 recommandations. Les cinq parties s’accompagnent d’encadrés venant illustrer ou apporter des précisions sur le contenu.

Le rapport met également en avant les retours issus de la consultation publique (synthèse en annexe). Cette approche est à l’image même du rapport et de son positionnement concernant l’ouverture des données, soulignant l’importance d’une attention à la circulation des données et à leur réutilisation en « embarquant » un grand nombre d’acteurs (privés, société civile, etc.) dans le processus.

« Changer la méthode et pas l’objectif » : questionner les usages et la réutilisation des données et des codes sources

En effet, plus que des nouveautés juridiques ou bien un positionnement fort par rapport à des mesures européennes en cours telle que l’Open Data directive [2], la mission annonce dès le départ que l’objectif est de se concentrer sur la méthode pour mettre en œuvre une ouverture, et non pas de prendre position sur un éventuel débat « pour ou contre l’ouverture ». Y est ainsi proposé un ensemble d’éclairage et de mesures d’ordre stratégique et organisationnel pour favoriser la politique d’ouverture des données et des codes sources déjà statuée en octobre 2016, mais dont la mise en œuvre est complexe et souffre de visibilité et de coordination entre acteurs concernés (interne ou externe au gouvernement). Ainsi un message avant tout pragmatique et axé sur la situation française est addressé.

Dès le début du document, la tonalité est annoncée. Il s’agit de se distancier d’une posture de juge “pour ou contre l’ouverture”.

Le parti pris est clair:

En premier lieu souligner l’utilité d’une politique d’ouverture des données et des codes source en fournissant des exemples et des cas d’étude.
Ensuite montrer les pratiques actuelles qui freineraient les opportunités offertes par l’ouverture des données et proposer un ensemble de recommandations pour y remédier.

La mission s’est ainsi résolument tournée vers les usages et la formation de l’ensemble des acteurs publics à une culture de la donnée et des codes sources afin de potentialiser les bénéfices de l’ouverture comme le souligne ce paragraphe :

La donnée est très loin d’avoir produit tous ses effets. Il est faux de croire qu’un bilan décevant peut être tiré des retombées de l’ouverture des données initiée en 2016, et qu’il faudrait fermer le ban. Cette ouverture est largement incomplète, voire insatisfaisante à certains égards dans la manière dont elle a été mise en œuvre, et les acteurs publics ont aujourd’hui une faible connaissance des réutilisations permises. Encore une fois, c’est la méthode qu’il faut changer, pas l’objectif [p.7]

Un ensemble de mesures à déployer sont documentées par des recommandations précisant concernant aussi bien le gouvernement, les instituts publics, les collectivités que des acteurs privés, la société civile et des communautés.

L’ouverture par défaut : des avantages transversaux à potentialiser

Il est ainsi rappelé que les réflexions sur l’ouverture ne sont pas une lubie récente technologique mais sont au cœur des préoccupations de l’action publique, depuis plusieurs décennies avec notamment la loi 1978 du droit d’accès au doc administratif [3]. Plusieurs bénéfices sont ainsi notés, l’ouverture représente :

Un vecteur de connaissance assurant un soutien au développement d’une Intelligence Artificielle (et d’une autonomie stratégique) en s’appuyant notamment sur une démarche de science ouverte et une ouverture des données.
Un levier économique et d’innovation. Selon une étude de la Commission Européènne citée dans le document, l’open data aurait rapporté 28 milliards d’euros (valeurs économique des produits, services et contenus enrichis ou rendus possibles par l’open data en 2019)[4]. Les logiciels libres sont également considérés comme un facteur de croissance et un moteur d’innovation interne de l’action publique.
Un élément clef démocratique par l’amélioration du service public et la prise en considération par la puissance publique des usages associés à des données ouvertes (vecteur d’innovation par des réutilisations non prévues.)
Un soutien politique pour restaurer la confiance face à un climat de doute concernant les données utilisées par l’Etat et l’émergence de théorie complotiste.
Un support de gouvernance pour à la fois penser les rapports public/privé tout autant que les relations avec les citoyens ainsi que faciliter l’évaluation des politiques publiques.

La France : modèle pour sa politique d’ouverture mais « mauvaise élève » quant à son implémentation

Si la France avec la loi pour une République Numérique (LPRN) a été novatrice et un modèle en Europe pour une politique d’ouverture des données et des codes issus de l’administration, l’écart est souligné entre l’instauration de telles mesures législatives et leur implémentation depuis 2016. Par exemple, la demande de redevances est encore pratiquée par les administrations publiques ou établissements privés ayant une mission de service public sans anticipation de l’impact économique ni garantie nécessaire à un tel changement de régime[5]. A plusieurs reprises, la saisine de la CADA est mentionnée comme une procédure bien loin d’être exemplaire (malgré une mise en œuvre plus ancienne que la LPRN) avec des délais d’attente de plus de 170 jours (en 2019).

Une culture de la donnée et de l’ouverture bien loin d’être appropriée.

Selon l’étude, la dynamique d’ouverture bien fragile et difficile à opérer au sein des instituts publics s’explique par une « culture de la donnée » encore bien loin d’être suivie et reconnue. La lenteur de la mise en œuvre d’une ouverture par défaut s’expliquerait par un ensemble de normes et d’organisations structurelles difficiles à faire évoluer. Elles se traduisent par une attitude protectionniste et un fonctionnement le plus souvent en « silo » défavorisant les échanges entre établissements publics. De manière générale, l’ouverture est perçue comme un risque en termes de mésusages possibles de données ou encore de remises en cause et critiques des données produites. Avant même d’aborder la question de l’ouverture à toutes et tous, le premier niveau de circulation des données, celui du partage des données entre acteurs publics, est caractérisé de «scandaleusement faible». L’absence de mise en commun débouche ainsi encore aujourd’hui sur la re-saisie de jeux de données par différents ministères ou encore la difficulté des croisements de jeux de données du fait de procédures encore bien complexes (exemple du NIR malgré des procédures d’allègements). La culture du partage et de la mutualisation étant bien loin d’être répandue entre ministères. Des initiatives clefs sont citées néanmoins avec l’ANSSI prise comme organisation modèle ou bien encore les projets de l’AMUE dans le champ de l’ESR qui œuvre pour une mutualisation des infrastructures supports à l’administration de la recherche.

Ainsi une grande partie du rapport et des recommandations portées vise à insuffler une culture de la donnée en levant les craintes a priori concernant l’ouverture et les actes de « résistance» qui peuvent par exemple se traduire par une interprétation excessive du RGPD pour justifier une « non-ouverture »[6].

Ouverture : oui, mais avec des garanties de qualité, fiabilité et sécurité des infrastructures

Néanmoins, les propos de la mission tendent à souligner que l’ouverture ne peut se concrétiser efficacement sans garantie de la qualité et de la fiabilité des données et du code source partagé. L’attention à la qualité porte aussi bien sur les étapes de production des données (documentation, standards interopérables, homogénéisation des données, écoute des utilisateurs) que de celles de l’accès, de la diffusion et de la mise en visibilité des données. Pour favoriser la circulation des données et une réutilisation effective, plusieurs piliers sont indiqués tels que la mise en place de labels de qualité, des fonctions et d’organismes clefs dans l’aide à la gouvernance des données avec le développement d’infrastructures sécurisées pour un échange possible de données entre différents types d’acteurs, notamment privés.

Un enjeu fort abordé à la fin du rapport avec la question des données d’intérêt général.

Les données d’intérêt général : une mise en œuvre incrémentale en « mode projet »

Les données d’intérêt général sont traitées dans la dernière partie du rapport. En France, cette question a commencé a être soulevée dès la loi pour une République numérique et soutenue par le Conseil National du Numérique. En Europe, la notion de données d’intérêt général n’est pas employée, il est question néanmoins dans l’Open Data Directive de la mention de high value dataset (« données spécifiques de forte valeur ») (art. 14) nécessitant d’être mises à disposition gratuitement[7].

Dans la mission Bothorel, les données d’intérêt général ont été distinguées en fonction de deux catégories :

Les données provenant du secteur privé mises à disposition des acteurs publics (B2G).
L’échange de données entre acteurs privés (B2B).

Le parti pris dans le rapport se résume pour ce sujet par une avancée à tâtons en identifiant déjà auprès des administrations les données du secteur privé qui s’apparenteraient à des données d’intérêt général ; puis en déployant le cadre juridique nécessaire pour respecter un équilibre entre ouverture et respect de la liberté d’entreprendre. Ici encore, la relation État/Citoyen est mentionnée avec la problématique de la portabilité citoyenne nécessitant une conception dès le départ avec les citoyens pour une meilleure acceptabilité. Pour mener à bien ces objectifs, une approche « en mode projet » est proposée afin de commencer avec quelques initiatives déjà en cours, notamment concernant des données environnementales et agricoles et la mise en œuvre de Hub AgDataHub ou encore Green Data Hub (en évitant néanmoins la formation de silo.)

Plusieurs organisations clefs sont proposées afin d’accompagner une gouvernance de la donnée et assurer le jeu d’équilibriste d’une valorisation des données dans un écosystème d’acteurs variés. A ce titre, l’Enseignement Supérieur, la Recherche et l’Innovation permet d’illustrer les différentes dimensions et priorités (social, économique, géopolitique) à articuler avec l’ouverture.

L’IA et la science ouverte : rôle stratégique pour la recherche et l’innovation

La science ouverte est mentionnée à plusieurs reprises avec l’exemple des actions menées par le CoSO (Comité pour la Science Ouverte) dont le but est d’implémenter le plan national de la science ouverte faisant de la mise à disposition des données de la recherche un des axes stratégiques. À ce sujet, la mission enlève une ambiguïté présente depuis la loi République Numérique sur le statut des données et des codes sources de la recherche. Il est ainsi rappelé que les données de recherche ainsi que les codes sources rentrent dans le cadre des documents administratifs de l’État et sont soumis de ce fait aux mêmes obligations d’ouverture.

Plusieurs initiatives de l’ESR sont citées tout au long du document comme illustrations des enjeux de l’ouverture des données, notamment en gage de visibilité et de crédibilité. La reproductibilité en recherche est en effet un argument fort pour pousser à l’ouverture des données de la recherche mais également des codes sources. L’Enseignement Supérieur et la Recherche apparaît également comme un microcosme des difficultés et des freins actuels à la mise en œuvre de démarches ouvertes. De la même manière que dans d’autres établissements publics, l’acculturation à la science ouverte semble encore loin d’être réalisée ; avec plusieurs raisons invoquées : un manque de reconnaissance et de valorisation d’ouverture des données et du code, considérés comme une perte de temps ou un risque réputationnel, des craintes de mésusages des données mais aussi une absence de compétences à ces sujets.

Une attention toute particulière est portée sur la communauté des chercheurs et plus particulièrement les projets associés à l’analyse des données et au développement des méthodes d’intelligence artificielle. L’IA se retrouve en effet à la jonction entre différentes problématiques dont les équilibres sont difficiles à trouver. Ces projets sont souvent contraints par une certaine fermeture, pour des raisons de protection du potentiel scientifique et technique (cas des CIFRE : Convention industrielle de formation par la recherche), pouvant jouer en la défaveur de l’ouverture de jeux de données garantissant une autonomie stratégique des modèles IA français. Outre des problématiques de valorisation économique, les raisons de protection de données à caractère personnel viennent aussi freiner les avancées dans ce domaine, sans compter plus généralement des lourdeurs administratives. En effet, l’accès pour les chercheurs à des jeux de données, notamment pour de l’apprentissage de modèles algorithmiques, relève parfois d’une prouesse administrative et juridique de par des délais de réponses effarants tout autant qu’une frilosité sur l’utilisation de données sensibles.

Un des enjeux, qui se traduit par une recommandation, consiste notamment à créer un bac à sable géré par la CNIL de données nominatives ou pseudonymisées pour leur analyse dans une interface sécure.

Portage ministériel fort, ressources humaines et financières pour favoriser une acculturation aux données et aux codes et soutenir les talents numériques

Pour conclure, 4 axes forts sont proposés pour favoriser une ouverture effective des données. Ces dernières, pragmatiques, consistent en des mesures de coordination et de structuration des relations entre les différents instituts participant à la production, diffusion et réutilisation des données et codes sources (publics, privés, société) passant par un accompagnement des acteurs concernés. Cela se traduit par :

Un portage ministériel fort pour un effet de levier sur l’ensemble des services et structures.
Un soutien en terme de moyens humains et financiers par des instances déjà en présence (par exemple la DINUM, l’ANCT, l’ANSSI) ou par la mise en place de nouvelle structure telle que l’Open Source Program Office, afin de faciliter un meilleur partage des données et des codes sources entre acteurs publics, accompagner les collectivités pour l’ouverture de leurs données ou encore définir les données d’intérêt général et le cadre juridique et structurel associé.
La mise en avant de talents numériques s’appuyant sur les forces en présence (personnes déjà impliquées dans l’open source, déploiement plus large du programme EIG).
La mise en œuvre de formations pour faciliter l’accculturation à la donnée et au code.

La mission Bothorel vient dresser ainsi un panorama de la situation de l’ouverture en France 4 ans après la loi pour une République Numérique (2016), 7 ans après la directive européenne (PSI) et huit ans après la circulaire Ayrault (usage des logiciels libres dans l’administration). Les recommandations pragmatiques détaillées au nombre de 30 rappellent bien qu’entre la promulgation d’une loi ou bien la transposition d’une directive européenne, il est nécessaire de considérer l’adoption des principes sur un temps long en appréhendant au mieux les usages existants et les freins à la mise en œuvre de nouvelles pratiques. L’ouverture des données et des codes sources s’inclut en effet dans un régime numérique des données et plus généralement des savoirs, qui implique des transformations organisationnelles, économiques, juridiques et culturelles majeures pour les acteurs en présence mais aussi la prise en considération de nouvelles figures collectives sous la forme notamment de communautés. Le billet suivant reviendra plus précisément sur les relations à construire avec les communautés en s’inscrivant dans des approches systémiques et en communs. Les innovations juridiques (droit de propriété intellectuelle) au cœur des activités d’inno³ seront aussi évoquées car elles sont essentielles pour accompagner et bénéficier des avantages offerts par l’open source, l’open data mais également l’open science.

Ce billet a été rédigé par Célya Gruson-Daniel & Benjamin Jean.

—

La consultation publique a recueilli 108 contributions libres, 418 commentaires et 1753 soutiens aux contributions.
Cf. tweets https://twitter.com/Calimaq/status/1341670159031947265
Avec néanmoins des débats nombreux et des prises de positionnement variés résumés dans le rapport « Trojette » cf. Trojette, Mohammed Adnène. « Rapport au premier ministre. Ouverture des données publiques. Les exceptions au principe de gratuité sont-elles toutes légitimes ? », juillet 2013. https://www.modernisation.gouv.fr/sites/default/files/fichiers-attaches/20131105-rapporttrojetteannexes.pdf.
Étude « The Economic Impact of Open data, Opportunities for value creation in Europe » de Cap Gemini. P.26 du rapport de la mission « Bothorel ».
Or il s’agissait un point majeur rappellé par le rapport «la valorisation des données de l’IGN, de Méteo France et du CEREMA : l’enjeu de l’ouverture des données publiques.» publié par la Cour des comptes en 2018.
Dans ce cadre, la phrase « aussi ouvert que possible et aussi fermé que nécessaire » pencherait vers une fermeture excessive en s’appuyant sur des raisons de protection des données à caractère personnel.
Six catégories ont été définies (Données géospatiales, Observation de la terre et de l’environnement, Météorologiques, Statistiques, Entreprises et propriété d’entreprises, Mobilité.) et les jeux de données n’ont pas encore été identifiés.

Auteur/Autrice

Benjamin JEAN

Célya GRUSON-DANIEL