Ouverture des données et des codes sources pour l’Enseignement supérieur et la Recherche : mission « Bothorel »

À la suite du billet introductif sur la mission Bothorel et un article axé sur les communautés, nous concluons cette série sur l’ouverture des données, mais aussi des codes sources dans le domaine de l’Enseignement Supérieur et de la Recherche (ESR).

Au-delà des enjeux politiques de transparence et de démocratie, l’ouverture représente un moteur essentiel de la recherche et de l’innovation. Plusieurs illustrations issues des domaines scientifiques viennent étayer les arguments de la mission Bothorel en faveur de l’utilité et des bénéfices de l’ouverture (statistiques, IA, environnement). Les politiques de science ouverte mises en œuvre depuis quelques années (2016) représentent également une source d’inspiration plus générale pour une politique publique de la donnée et des codes sources, et soulignent aussi les difficultés, les résistances et frictions que suscitent leur ouverture (évaluation et reconnaissance de l’open source dans les projets de recherche, acculturation et formations, etc.). Plusieurs préconisations dans le rapport tentent d’y répondre.

Réaffirmant que les données de recherche ainsi que les codes sources rentrent dans le cadre des documents administratifs de l’État et sont soumis aux même statut d’ouverture par défaut, la mission Bothorel a ainsi rappelé que les spécificités de la recherche, si elles ne doivent pas être oubliées, doivent être pensées dorénavant en articulation avec le principe fort de l’open data par défaut. Plusieurs recommandations mentionnent plus spécifiquement la recherche[1]. Une recommandation majeure (recommandation 11) propose de soutenir l’ouverture des données, mais aussi des codes sources par sa prise en considération dans l’évaluation et le financement des projets de recherche[2]. Les autres recommandations apportent quant à elles des précisions sur les moyens effectifs à mettre en œuvre pour faciliter l’accès aux données pour des fins de recherche (IA, statistique publique, recherche scientifique historique, etc.)[3].

Par cet article, il s’agit de rappeler les opportunités d’une telle ouverture au sein de l’ESR : en lien tout d’abord avec les données avant de nous pencher plus précisément sur les codes sources. Le rapport en ce sens a un rôle important, car il apporte une visibilité à la question des codes sources, thématique encore discrètement appréhendée dans la feuille de route de la science ouverte par rapport aux publications scientifiques (open access) ou aux données (FAIR data, open research data). Intervenant régulièrement à l’échelle des projets de recherche d’instituts scientifiques ou encore de leurs partenaires (SATT, IRD, industriels divers), nous sommes convaincus que la place croissante que prend le logiciel n’est pas encore assez appréhendée et considérée.

Dans ce billet, les informations issues du rapport sont complétées par une étude préliminaire (septembre 2020) à la mission Bothorel que nous avons conduite pour Etalab en collaboration avec le groupe logiciels libres du Comité pour la Science Ouverte (cf. encadré). Nous concluons cet article avec quelques éléments complémentaires issus de cette étude afin d’alimenter les réflexions qui doivent accompagner la mise en œuvre d’une stratégie d’ouverture des logiciels de la recherche et des codes scientifiques dans les prochaines années.

Étude Open Source ESR

Dans le cadre de l’appui attendu de la DINUM à la mission sur la politique publique de la donnée, Etalab a confié au cabinet Inno³ une étude relative à l’ouverture des codes sources au sein de l’Enseignement Supérieur et de la Recherche (ESR). Le but était de :

  1. dresser un premier panorama des pratiques de publication de codes sources au sein de l’ESR et des enjeux, freins et besoins associés ;
  2. recenser des projets diffusés en open source ou qui auraient vocation à l’être et de les caractériser ;
  3. décrire les positionnements et politiques des établissements en matière d’open source en articulation avec les stratégies de valorisation et d’autres perspectives (souveraineté, open data, open access, etc.).

Nous avons conçu un questionnaire qu’Etalab et le Comité pour la Science Ouverte ont relayé en septembre 2020. Nous nous sommes appuyés sur les résultats de ce questionnaire et sur de nombreuses entrevues pour faire un état des lieux des pratiques de publication et de valorisation des codes sources dans l’ESR, ainsi qu’une liste de recommandations pour l’avenir. L’ensemble a été partagé avec la mission du député Éric Bothorel, qui s’est appuyé sur ces éléments.

Cette étude et les données associées sont aujourd’hui rendues publiques sous différents formats :

1. Enseignement supérieur, recherche, innovation et politique publique d’ouverture des données : des leviers d’actions conjoints

Le rôle stratégique que joue l’ouverture des données pour la recherche est présent dans différentes parties du rapport compte tenu des enjeux qu’elle cristallise (accès à différents types de données pour des finalités de recherche, mise en œuvre de cadre sécurisé pour l’entraînement de modèle en IA, rapport à la puissance publique et aux acteurs privés, piste des données d’intérêt général et des communs numériques). En effet, un des premiers constats, réaffirmé avec la crise de la covid-19, est le rôle de l’ouverture comme moteur essentiel de la recherche et de l’innovation.

1.1 L’ ouverture : une nécessité pour le fonctionnement même de l’ESR

Les enjeux scientifiques et technologiques actuels (environnement, santé, numérique, etc.) nécessitent un accès à de multiples données de qualité pour comprendre et appréhender la nature complexe des phénomènes à l’étude, tout autant que pour développer des technologies appropriées. Plusieurs exemples ponctuent le rapport dans des domaines majeurs :

  • Les sciences de l’environnement : elles se fondent sur le croisement de multiples sources d’information pour produire par exemple des modélisations pertinentes sur le climat. Cela nécessite des échanges de données à l’échelle européenne et internationale d’où la directive INSPIRE dès 2007 statuant l’ouverture des données environnementales géographiques issues d’instituts publics.[4]
  • La santé: la pandémie de la covid-19 met sur le devant de la scène la nécessité de l’ouverture des données de recherche fondamentale, clinique, épidémiologique, pharmacologique, etc. pour un travail conjoint entre les laboratoire de recherche, des acteurs privés, mais aussi des communautés. Au début de la crise sanitaire en mars 2020, ces modalités se sont organisées souvent dans l’urgence dépassant les habituels freins au partage de données. Mais cette « grande réactivité sur une base volontaire », comme la mission le mentionne, ne s’est pas organisée en s’appuyant sur un cadre juridique clair. Aujourd’hui cela révèle un ensemble de tensions au long terme pour maintenir « cet élan » d’ouverture au delà de la situation exceptionnelle rencontrée.[5]
  • Les sciences des données et l’IA : ce champ à la croisée entre différentes disciplines (mathématique, informatique, etc.) soulève des enjeux économiques, des considérations éthiques et des défis scientifiques. L’IA constitue une figure majeure et stratégique de la mission, car l’entraînement des modèles algorithmiques se développe sur des ressources ouvertes que ce soit les jeux de données ou les logiciels (codes sources). L’usage de jeux de données publiques et/ou d’intérêt général français de qualité et riches sont un enjeu à la fois scientifique (qualité et pertinence des résultats), économique (développement d’entreprise et de start-up) et géopolitique (souveraineté et autonomie). Aujourd’hui, cet accès est souvent restreint de par différentes contraintes administratives mais aussi des frictions en lien avec la protection des données à caractère personnel.

Que ce soit les données environnementales, les données de santé, les données servant à entraîner des modèles IA, la mission Bothorel rappelle que l’ouverture ou tout au moins le partage des données est un enjeu majeur pour la recherche et l’innovation et réaffirmé par les défis actuels (santé, IA, etc.).

« Si cette culture du partage entre équipes de recherche était mieux ancrée, la prise en charge et le traitement de la Covid19 auraient été certainement plus performants et plus réactifs pendant la crise, par exemple. Plus largement, dans l’ensemble des domaines de connaissance, la donnée est aussi la condition sine qua non des technologies d’intelligence artificielle, dont nous commençons tout juste à apprécier le potentiel. » p.6

Ces défis sont appréhendés depuis plusieurs années en recherche et se sont traduits par leur intégration dans les politiques publiques de la recherche sous le vocable d’open science dès 2016 en Europe[6]. La science ouverte aujourd’hui représente un élément majeur des orientations politiques de la recherche et de l’innovation avec un ensemble de principes clefs et modèles dont les applications dépassent le seul secteur de l’ESR.

1.2 La science ouverte : un modèle d’organisation et de gestion des données pour d’autres secteurs

La science ouverte est mentionnée à plusieurs reprises dans le rapport, avec l’exemple des actions menées par le Comité pour la Science Ouverte dont le but est d’implémenter le plan national de la science ouverte (2018) faisant de la mise à disposition des données de la recherche un des axes stratégiques clefs[7]. Auparavant, les enjeux d’ouverture se concentraient sur la mise à disposition et le partage des publications scientifiques, qui restent encore un sujet important pour établir par exemple des rapports équilibrés avec les éditeurs scientifiques (cf. plan S en Europe) et pour proposer des infrastructures appropriées à la diffusion et conservation des écrits scientifiques. En effet, la place croissante prise par les technologies numériques en recherche a ouvert des espaces de réappropriation possible des contenus scientifiques par un réseau institutionnel d’acteurs publics en s’équipant d’infrastructure pour les stocker et les gérer.[8]La question des données a pris ces dernières années une importance majeure, car outre leur ouverture et/ou partage, elles constituent un enjeu de gestion et de structuration importante pour assurer le fonctionnement même de la production de connaissance scientifique de qualité dans des contextes numériques se basant sur la réutilisation même des données.[9]

Pour cela, différents groupes de travail et organisations à l’échelle nationale, européenne et internationale œuvrent pour proposer des principes, des protocoles et des standards adaptés pour des travaux de recherche nécessitant des échanges et partages d’information à une échelle mondiale (l’idéal même du réseau ayant donné naissance à internet !). Aujourd’hui, les principes FAIR (Findable, Accessible, Interoperable, Reusable) employés en recherche pour décrire les caractéristiques souhaitées des données, dépassent la communauté scientifique. Les FAIR data sont mentionnées par exemple dans des directives europénnes sur les données (Open Data Directive) et sont citées dans le rapport comme gage de qualité de production et de circulation des données.[10] Les problématiques d’ouverture et de partage de ressources soulevées en recherche et les solutions apportées à différentes échelles (protocoles, infrastructures, standards) semblent aujourd’hui une source d’inspiration pour d’autres domaines (établissement et entreprise). Un des exemples est l’apparition de nouvelles fonctions au sein d’établissement pour aider à la gouvernance des données ou encore la réaffirmation, mentionnée dans le rapport de la mission « Bothorel », du jeu clef joué par les administrateurs ministériel des données, des algorithmes et des codes sources (AMDAC).

Néanmoins, même si la recherche est source d’inspiration et de « bonnes pratiques », la mission Bothorel pointe aussi les difficultés et les freins actuels à la mise en œuvre de démarches ouvertes. Plusieurs éléments sont mentionnés dans le document :

  • La recherche et l’innovation impliquent à la fois des acteurs privés et publics, pouvant rendre complexe l’ouverture ou même le partage des données pour des raisons de valorisation et/ou de protection scientifique et technologique. Ce point crucial est discuté par la mission avec, par exemple, le rôle des Hub dans le domaine environnemental ou de la santé et la thématique des données d’intérêt général et son cadrage juridique (cf. billet 2).
  • Les enjeux administratifs, éthiques et juridiques rendent difficile l’accès aux données à des finalités de recherche, en raison des difficultés d’accès aux données personnelles par exemple (régulées par le RGPD) ou bien des délais de partage de données publiques statistiques ubuesques (cf. billet 1).

Outre ces difficultés d’ordre structurel, d’autres freins sont quant à eux culturels et associés à l’adoption parfois difficile de nouveaux usages par les communautés de la recherche. Ainsi le rapport indique que la « culture de la science ouverte dans l’ESR n’atteint pas un niveau suffisant »[11] pour des raisons identiques aux craintes générales sur l’ouverture déjà mentionnées dans le billet 1 : la peur de mésusages et de critiques, une culture de la protection, un repli derrière l’invocation de la protection des données à caractère personnel, etc.[12] Les enjeux de formation et d’acculturation font parties intégrantes des actions citées par la mission avec notamment un axe plus spécifiquement traité : celui de l’ouverture des codes sources et de sa reconnaissance au sein des projets de recherche.

2 – Ouverture des codes sources dans l’ESR : des pratiques à consolider

La thématique de l’ouverture des codes sources associée à la production de logiciels dans l’ESR représente encore un domaine d’action discret des politiques de science ouverte, malgré une prise en compte grandissante ces dernières années au côté de la thématique des infrastructures de recherche. Ainsi, la mention des logiciels et de l’open source est par exemple absente du Plan National de la Science ouverte.

La mission Bothorel a l’avantage de mettre en lumière l’enjeu de l’ouverture des codes sources dans l’ESR. La production de logiciels de recherche représente à la fois des objets d’étude, des résultats de recherche (pour des domaines tels que l’informatique, les mathématiques appliquées), mais aussi des outils essentiels à la production de résultats scientifiques (analyse, visualisation de données) et aujourd’hui aussi des éléments essentiels à une transparence du processus de recherche. En France, le groupe de travail « logiciel libre » du CoSO s’est emparé de cette thématique et a déjà, depuis plus d’un an, apporté des éclaircissements à ce sujet et des recommandations.[13] Depuis la publication de la Loi pour République Numérique[14], la Direction Interministérielle du Numérique (DINUM) est venue soutenir beaucoup plus fortement la publication et la contribution aux logiciels libres et open source – matérialisée notamment dans le cadre de la Politique de contribution aux logiciels libres de l’État. Plus encore, un référent logiciel libre a été nommé au sein d’Etatab afin de soutenir les démarches au sein de l’administration. Les codes sources issus de la recherche représentent une production importante de codes publics qui sont recensés sur la plateforme code.etalab.gouv.[15]

Dans la suite de ce billet, nous détaillons les éléments clefs présentés dans la mission Bothorel concernant l’ouverture des codes sources de l’ESR en les mettant en perspective avec les informations complémentaires issues de l’étude qui nous a été confiée par Etalab, dans le cadre de l’appui attendu de la DINUM à la mission « Bothorel ».

2.1 Quelques retours de l’étude relative à l’ouverture des codes sources au sein de l’ESR (Etalab) : acteurs et motivations

Réalisée courant septembre 2020, l’enquête a consisté en la diffusion d’un questionnaire -intitulé « pratiques de publication de codes sources au sein de l’Enseignement supérieur et de la Recherche (ESR) » (panorama des pratiques)- et la réalisation d’entretiens d’acteurs de la recherche et de l’enseignement supérieur. Elle s’est appuyée également sur les travaux du groupe de travail « Logiciels libres et open source » du CoSO (Comité pour la Science Ouverte) et d’autres initiatives menées par le passé (projet PLUME). Le questionnaire a fait l’objet d’une diffusion ciblée auprès de différents établissements de recherche et de l’enseignement supérieur et a permis de recueillir 223 réponses en une vingtaine de jours. Les réponses apportées ont été faites à titre individuel et reflètent donc les pratiques et opinions des différentes personnes participant à la production de codes sources au sein de divers établissements de l’ESR (instituts de recherche, université, consortium, etc.).[16] Ces retours ne constituent donc pas les réponses officielles des établissements, recueillies en parallèle, pour la mission Bothorel, via d’autres questionnaires et entretiens. L’étude apporte en ce sens des informations et pistes de réflexion complémentaires à la mission Bothorel permettant de mieux comprendre qui sont les acteurs de la recherche participant à la production de code source, leurs pratiques et les freins rencontrés aujourd’hui à l’ouverture des codes sources. Ces derniers occupent aujourd’hui essentiellement des postes d’ingénieurs (de recherche ou d’étude)[17] et ont souvent une familiarité avec l’open source et le libre.

À ce sujet, bien que la mission Bothorel (et le rapport produit) mette en lumière les manquements et les freins à l’ouverture (cf. infra), il est important de rappeler que les logiciels libres et open source ont été au départ développés au sein de milieux universitaires[18] et que les acteurs de la recherche ont eu un rôle important dans la structuration de l’Open Source[19]. Les principes d’ouverture et de collaboration des projets libres et open source s’inspirent de l’idéal de production scientifique (partage, relecture par les pairs, mutualisation, organisation en réseau) et sont au cœur des motivations recensées dans l’enquête poussant les personnes à ouvrir leur code source. La mutualisation et l’encouragement à la réutilisation des codes sont les premières motivations qui ressortent du questionnaire pour ouvrir des codes sources (41,2% et 30,3% respectivement). La pérennisation, la reconnaissance et la valorisation venant en dernier lieu (20,4%, 16,6% et 18,1% respectivement).

Néanmoins, même si la reconnaissance n’apparaît pas comme un élément important et comme une motivation intrinsèque aux yeux des personnes étant déjà familières/engagées aux pratiques de l’open source, la reconnaissance de ces pratiques constitue un élément clef pour favoriser l’adoption de ces usages par un nombre plus important de personnes, sachant que ces démarches sont loin d’être la norme dans l’ensemble des disciplines de recherche.

Pour aller plus loin : consultez la partie de l’enquête Open Source ESR La publication de codes sources : une pratique partagée entre les différents établissements de l’ESR

2.2 Ouverture du code source dans l’ESR : les freins majeurs

La mission Bothorel souligne que l’ouverture des codes sources est une démarche encore confidentielle[20]. Un ensemble de points freinent aujourd’hui l’ouverture des codes sources :

  • Un manque de valorisation de l’ouverture des codes sources pour les personnes les produisant. L’ouverture est considérée comme une perte de temps pour les chercheurs.
  • Plusieurs raisons génériques que l’on retrouve au delà de la recherche : la « peur de mal faire », les craintes d’être jugé sur la qualité du code ou encore le manque de compétences à ce sujet (cf. billet 1).
  • Un point spécifique propre à la recherche ressort de la mission : le risque réputationnel encouru pour les personnes s’exprimant sur ce sujet amenant potentiellement « une mise en cause de leur travail et de leur demande d’accès aux données ».[21]

Par ailleurs, un autre point majeur mentionné – rapidement, il mériterait d’être davantage développé – dans le rapport concerne le manque d’articulation avec les services de valorisation et les organismes de transfert technologiques. Le rapport indique qu’il s’agit d’« un frein au développement de la science ouverte » de par un manque de maîtrise des services de valorisation « des processus de mise à disposition et de programmation informatique ».[22]

Nous avons plus spécifiquement détaillé ce point dans l’enquête préliminaire au rapport. Plusieurs commentaires décrivent des pratiques d’ouverture du code se faisant sans accord et/ou sans contact avec les cellules de valorisation en raison de processus jugés particulièrement longs et non adaptés aux enjeux de collaboration qui caractérisent la recherche. Par exemple, le dépôt auprès de l’Agence pour la protection des programmes (dits « dépôts APP ») puis la conception d’un dossier soutenu auprès des SATT (service de valorisation des universités) génèrent des délais de réponse et traitement souvent longs et chronophages. Cela amène les producteurs du code source à faire sans, de peur de se voir retardés. Ces propos illustrent une décorrélation encore trop forte entre ouverture et services de valorisation. La mission propose quelques préconisations que nous complétons par les recommandations présentes dans l’enquête préliminaire.

Pour aller plus loin : consultez la partie de l’étude Open Source ESR Valorisation et pratiques open source : de l’injonction contradictoire aux articulations fécondes

3. Mesures fortes à retenir du rapport Bothorel en faveur de l’ouverture des codes sources et des données au sein de l’ESR

3.1 Une reconnaissance de l’ouverture des codes source comme élément essentiel du rayonnement de la recherche

Une mesure principale et centrale dans le rapport pour l’ESR concerne en premier lieu la réitération du soutien nécessaire à l’ouverture des codes sources en recherche. La recommandation 11 réaffirme en effet l’importance de l’open source et de l’open data comme moteur essentiel de la recherche (rayonnement) et la nécessité pour cela de réévaluer sa prise en considération dans les mécanismes actuels de financement et d’évaluation de la recherche.

Recommandation n° 11 : Prendre davantage en compte les démarches d’open source et d’open data pour le rayonnement de la recherche française dans les évaluations et le financement des projets.

En effet, l’évaluation et le financement sont des leviers d’actions majeurs à la hauteur des transformations structurelles, juridiques et culturelles nécessaires à la mise en œuvre de telles mesures au sein des milieux de la recherche (et cela malgré une dynamique déjà présente de production de logiciels libres dans certains domaines de la recherche et de l’enseignement supérieur).

En intégrant l’ouverture des codes sources et des données comme élément à considérer pour l’évaluation et le financement de projets, la mission vient s’appuyer sur un levier important pour des changements de pratique. En effet, avec un mode de financement de la recherche par projet, les obligations des financeurs (en France majoritairement l’ANR) peuvent amener les acteurs de la recherche à changer leurs pratiques. Il s’agit aussi d’agir à l’échelle des laboratoires en intégrant dans l’évaluation des laboratoires de recherche, par le Haut Conseil de l’Évaluation de la Recherche et de l’Enseignement Supérieur (HCERES), ces principes de science ouverte (code source, mais aussi données et publications)[23]. Outre les acteurs de la recherche publique, l’objectif de cette mesure est aussi pour la mission Bothorel d’« inciter les partenaires industriels de ces projets à accepter la démarche ».

Néanmoins, un des risques évoqués serait l’association de cette nouvelle mesure à une nouvelle tâche bureaucratique, perçue négativement et qui risque d’être contre-productive[24]. Pour l’éviter, il s’agit de comprendre également les besoins de la part des chercheurs en termes de ressources et d’accompagnement à la production et à l’ouverture des codes sources. En ce sens, plusieurs préconisations ont été faites dans le rapport qui rejoignent quelques unes des recommandations fournies dans notre étude, en termes d’usages mais également de valorisation (nécessitant une définition élargie).[25]

3.2 Un besoin de ressources humaines et un soutien à la formation pour une appropriation par les communautés

Les préconisations pour l’enseignement supérieur et la recherche dans la mission Bothorel rejoignent les leviers d’actions généraux proposés pour une politique publique de la donnée, à savoir : un soutien politique et stratégique fort, des moyens humains et financiers, un accompagnement en termes de formations, et la mise en avant des talents numériques.

Concernant le soutien financier et humain, il se traduit par exemple par la demande de recrutement pérenne d’ingénieurs à l’instar de pratiques que l’on trouve déjà dans un organisme tels que l’INRIA. Aujourd’hui, beaucoup de codes sources sont produits par des post-doc (contrat de quelques mois à quelques années) et des non développeurs, ne facilitant pas le maintien du code source sur la durée. Une autre solution proposée par la mission est la création de services de soutien pour développer du code de qualité à l’image des « bureaux européens » (aide pour la réponse à des projets européens).

L’enquête préliminaire avait par ailleurs révélé d’autres points convergents. Concernant les formations, les besoins recensés sont ceux d’une aide à la documentation du code, l’apprentissage du développement collaboratif et à l’ingénierie logicielle. Pour les ressources nécessaires au soutien des acteurs de la recherche, la préférence semble aller vers un accompagnement au sein de chaque institution, plutôt qu’un service public généralisé à travers l’ESR. Cela rejoint notamment l’initiative INRIA Soft citée dans le rapport Bothorel, qui va encore plus loin et vise à aider à la construction de consortium open source, à la structuration de coopération entre utilisateurs et producteurs open source et à la pérennisation des projets.

Pour aller plus loin : consultez la partie de l’étude Open Source Stratégie nationale : soutien à la publication et au développement de projets logiciels au sein de l’ESR

Conclusion – Pistes d’actions futures complémentaires

La mission Bothorel réaffirme sans ambiguïté l’importance de l’ouverture des données, mais aussi des codes sources et apporte des solutions pragmatiques pour faciliter son implémentation. Nous avons intégré dans cette analyse quelque réflexions complémentaires relatives aux pratiques des acteurs de la recherche produisant des codes sources sur la base de l’enquête menée en amont.

Que ce soit sur la base de l’enquête Open Source ESR précédemment évoquée ou de nos autres expériences menées aux côtés des acteurs de la recherche, quelques chantiers nous semblent encore nécessaires à mener pour consolider les dynamiques d’ouverture que la mission Bothorel préfigure.

  • Chantier 1 : identifier et approfondir les différentes formes et finalités de production de code source (développement logiciel, partage de code source/script associé à un article scientifique[26]) dans l’ESR afin d’y associer des modalités de valorisation spécifiques.
  • Chantier 2 : associer aux objectifs de dissémination de la recherche et de l’enseignement supérieur ceux de soutenabilité et de pérennisation des projets [27].
  • Chantier 3 : offrir aux publics concernés une sensibilisation aux enjeux de l’open source assurant une bonne articulation entre les interventions respectives [28].
  • Chantier 4 : considérer le rôle de l’open source dans le développement d’infrastructures support des établissements de la recherche mais aussi de l’enseignement supérieur[29].
  • Chantier 5 : construire une stratégie globale, étendue à tous les acteurs participants à la recherche et à sa diffusion, en laissant la place aux politiques institutionnelles de chaque établissement.
  • Chantier 6 : définir de nouveaux objectifs de valorisation intégrant pleinement les bénéfices de l’ouverture en pensant et évaluant la valorisation au travers de critères non essentiellement économiques.[30]
  • Chantier 7 : assurer un meilleur accès général aux données non ouvertes pour des fins de recherche en s’inspirant des réflexions en matière de données d’intérêt général et en favorisant la production et le maintien d’infrastructures communes (telles les « hubs ») partagées entre les acteurs de la recherche[31].
  • Chantier 8 : approfondir les enjeux entre plateformes centralisées ou fédérées mises à disposition en soutien aux acteurs de la recherche afin de proposer des solutions conformes aux attentes et usages des acteurs du terrain[32].
  • Chantier 9 : comprendre et anticiper les blocages et insécurités juridiques susceptibles de s’opposer aux enjeux de science ouverte[33] afin de faire évoluer ces aspects en considérant les usages au travers de démarches de recherche-action.

Ce billet a été rédigé par Célya Gruson-Daniel & Benjamin Jean.

Pour aller plus loin : consultez les 30 recommandations proposées dans l’étude Open Source ESR

Retrouvez les 3 billets de la mini série consacrée au rapport de la mission Bothorel :


1. Les recommandations 11, 28, 29 et 30 impliquent plus spécifiquement la recherche. Néanmoins, un grand nombre de recommandations ont un impact sur l’Enseignement Supérieur et la Recherche (pour les établissements publics de recherche, les acteurs privés ayant des activités de R&D,etc.)

2. Recommandation n°11 : Prendre davantage en compte les démarches d’open source et d’open data pour le rayonnement de la recherche française dans les évaluations et le financement des projets cf. rapport de la mission Bothorel

3. recommandation 28 à 30

4. Ces éléments sont abordés dans la partie « Les données de l’environnement : un régime d’ouverture et précurseur, sous l’influence du droit européen et de la Charte de l’environnement ». Le rapport de la mission Bothorel ne le mentionne pas, mais ces données sont aujourd’hui aussi catégorisées en tant que données à haute valeur dans le cadre de la directive Open Data, et à ce titre soumises à des conditions d’accès et de réutilisation renforcées.

5. Extrait du rapport p.195 “En effet, l’accès à ces données s’est fait bien souvent avec une grande réactivité, sur une base volontaire et dans tous les cas hors du cadre juridique posé par l’article 19 de la loi pour une République numérique. L’urgence de la crise, sa brutalité ont entraîné une mobilisation de l’ensemble du pays. Cette mobilisation des acteurs publics et privés a permis de donner vie à ces initiatives d’accès à des données du secteur privé. Il en relève aussi les tensions.

6. Date de sortie d’un rapport européen “Open Science Open Innovation, Open to the world” couvrant les enjeux de l’open access à ceux de l’open science.

7. cf. rapport p.33

8. cf. Gruson-Daniel Célya (2018), Numérique et régime français des savoirs en~action : l’open en sciences. Le cas de la consultation “République numérique” (2015). Université Paris Descartes https://doi.org/10.5281/zenodo.1491292

9. La loi pour une République numérique mentionne explicitement que les données de la recherche à partir du moment où elles sont rendues publiques bénéficient d’une réutilisation libre. https://www.legifrance.gouv.fr/jorf/article_jo/JORFARTI000033202841?r=0LA7Q3KaaB

10. Outre les principes FAIR, un autre exemple de l’usage de cadres issus de recherche employé pour d’autres organisations est celui de l’organisation des infrastructures de recherche. Le projet de recherche GEOBS illustre l’activité de moissonnage entre IDG (infrastructures de données géographiques) en France en 2018.

11. p.41

12. cf billet 1 : deux cas sont cités, celui de l’institut Pasteur dont le partage des modèles épidémiologiques lors de la première vague de la covid-19 a été freiné par des obstacles culturels et l’absence d’obligation de partage et également le risque réputationnel de publier des versions “non aboutie” des travaux. cf. p.46. Un autre cas concerne une start-up française qui rencontre des difficultés à accéder des données de santé française pour entraîner ses algorithmes donnant ainsi un avantage à des sociétés chinoises malgré leur usage de données de moindre qualité.

cf. p.41)

13. Collège « logiciels libres et open source » (CoSO). « Note d’opportunité sur la valorisation des logiciels issus de la recherche ». Ouvrir la Science (CoSO), 2019. https://www.ouvrirlascience.fr/note-dopportunite-sur-la-valorisation-des-logiciels-issus-de-la-recherche

14. Qui fait rentrer les codes sources de la recherche en tant que documents administratifs soumis à l’obligation d’une ouverture par défaut.

15. Le Medialab de Science Po est par exemple cité par la mission Bothorel, car ce laboratoire interdisciplinaire sur les enjeux numérique/société représente un des contributeurs majeurs tout comme le portail Esup, consortium d’établissements de l’enseignement supérieur pour l’innovation numérique. La plateforme code.etalab.gouv.fr recense au 8 décembre 2020 un total de 5 679 dépôts, dont 29 % liés à la recherche (1 644 dépôts). Parmi les principaux contributeurs, outre beta.gouv.fr et Etalab, qui figurent en tête, on peut mentionner le Médialab de Sciences Po (176 dépôts), les applications métiers LUTECE destinées au secteur public (131 dépôts), la Fabrique numérique des ministères sociaux (118 dépôts), le portail Esup (107 dépôts).p76

16. Le CNRS est l’institution la plus représentée (avec 41 personnes affiliées au CNRS contre 18 pour l’INRIA).

17. Les ingénieurs de recherche et d’ingénieurs d’études (plus de 50 % – dont 27,6 % IR et 25,8 % IE)

18. Richard Stallman au MIT, Linus Torvald à l’université d’Helsinki, etc.

19. D’ailleurs beaucoup de licences Open Source standard portent le nom d’une université ou d’un centre de recherche.

20. p76

21. Enfin, le risque réputationnel pour les chercheurs et la difficulté d’accéder aux données et aux codes sources a été concrètement mesuré par la mission, lorsque plusieurs chercheurs interrogés ont fait part de leur souhait d’anonymiser leur situation dans ce rapport, afin d’éviter une mise en cause de leur travail et de leurs demandes d’accès aux données. p42

22. À cet égard, les organismes de transfert de technologie ne doivent pas constituer un frein au développement de la science ouverte. Ainsi, les collaborations sur des projets de recherche ne devraient pas être ralenties par l’absence de maîtrise, de la part des cellules de valorisation des instituts de recherche, des processus de mise à disposition et de programmation informatique. p.90

23. Extrait p. S’agissant de l’évaluation, la démarche de science ouverte pourrait être davantage suivie dans les indicateurs utilisés par le Haut Conseil de l’évaluation de la recherche et de l’enseignement supérieur (HCERES), comme c’est le cas pour les laboratoires d’informatique. L’ouverture des données comme des codes sources doivent faire partie du cahier des charges sur lequel un laboratoire est évalué et ce, quel que soit son champ disciplinaire.

24. cf.https://opensource-esr.pubpub.org/pub/open-source-esr-pratique-partagee/release/1#9t2f4hhtc8

25. Nous abordons plus en détail la question de la valorisation et de sa définition élargie dans le cadre du billet 2 en nous basant notamment sur une étude réalisée pour le CNES sur cette thématique.

26. Ces codes sources, ici sont « ouverts » pour une finalité différente, celle de la transparence et de la garantie de la qualité de la recherche (enjeux de reproductibilité). La publication du code source représente en ce sens une des briques du travail scientifique à partager afin de pouvoir tracer l’ensemble de la démarche scientifique.

27. Une liste de logiciels open source français majeurs est disponible en annexe de l’étude Open Source ESR.

28. Par exemple, si une connaissance des enjeux de l’open source se développe au sein des communautés d’ingénierie logicielle (exemple du réseau devlog), ces compétences ne sont pas forcément acquises lors des enseignements à la programmation se faisant de plus en plus fréquente dans les parcours d’enseignements supérieurs. cf. tableaux comparatifs : https://opensource-esr.pubpub.org/pub/ouverture-code-source-esr-fiable/release/1#cdyyc1bahs

29. L’open source gagnerait également à être privilégié pour le développement d’infrastructures support de l’ESR. En effet, l’accent dans le rapport est mis plutôt sur la recherche en oubliant que l’enseignement supérieur aussi a un rôle important de production logicielle open source. On peut donner pour exemple la plateforme FUN de MOOC (dont le code est open source). L’implication de l’enseignement supérieur est aussi majeur en tant qu’espace de formation des étudiant.e.s dont certains représentent la nouvelle génération d’agents publics, et dont la formation est si grandement mise en valeur dans la mission Bothorel.

30. Cela implique d’appréhender dans la valorisation des éléments qui sont plus difficilement quantifiables et de veiller à ce que des indicateurs éventuels ne s’imposent pas au détriment des logiques de collaboration et de partage propre aux communautés open source et libres, voir Valorisation et pratiques open source : de l’injonction contradictoire aux articulations fécondes.

31. Dans cette continuité, on peut citer plusieurs initiatives. L’agence de mutualisation des universités et des établissements (AMUE) est en train d’évoluer vers le logiciel libre traduisant son rapprochement avec le consortium Cocktail. Plusieurs actions ont été conduites en ce sens : des actions de sensibilisation de la communauté de l’enseignement supérieur et de la recherche au travers de publications et d’un séminaire (avec l’organisation d’une journée dédiée au sujet Open Data pour l’ensemble de la communauté Enseignement Supérieur et Recherche en novembre 2019).

32. La proposition d’une plateforme centralisée (une alternative nationale à un GitHub) risquerait de ne pas être adoptée pour des raisons pratiques et des usages se dissociant des velléités institutionnelles d’où l’importance de comprendre les usages avec les utilisateurs.

33. A ce sujet, nous avons publié pour la fédération Open Space Makers et le CNES une étude sur les modèles de sécurisation de la collaboration alternative possible (propriété intellectuelle open source à l’aide de Blockchain notamment) cf. https://www.federation-openspacemakers.com/fr/communautes/actualites/proteger-la-propriete-intellectuelle-open-source-laide-de-la-blockchain/)