Projet de recherche ouverte OSOS : analyse d’un réseau d’acteurs à la croisée de l’Open Source et de l’Open Science

Début 2020, Inno³ participait à CHAOSScon, une conférence entièrement dédiée aux métriques et aux outils utilisés par les projets open source pour suivre et analyser leur travail communautaire. Par la même occasion, l’équipe du cabinet était présente au FOSDEM à Bruxelles, une des plus grandes rencontres du développement libre et open source en Europe.

Ces deux rencontres constituent le point d’ancrage d’une recherche exploratoire menée par Inno³ sur les dynamiques actuelles entre acteurs de l’open science et de l’open source (OSOS). Dans ce billet, il s’agira de revenir sur la première phase quantitative du projet, lors de laquelle il a été question d’analyser le réseau de suivi de Twitter (“follow graph”) afin de ressortir les statistiques des participants aux conférences @CHAOSSproj et @FosdemResearch.

Pour plus d’informations concernant l’obtention du follow graph, vous pouvez consulter le projet sur Framagit.

Pourquoi Twitter?

C’est un choix qui, selon nous, mérite une explication puisque cette plateforme propriétaire est porteuse de valeurs qui poussent généralement les communautés open source à privilégier d’autres moyens de communication (Mastodon, Diaspora ou Pleroma). Twitter s’est néanmoins imposé pour cette étude car il s’agit de replacer un réseau d’acteurs dans son contexte institutionnel à plus grande visibilité afin de mieux comprendre sa portée médiatique et politique.

Finalement l’objectif est de comprendre comment les valeurs et les pratiques de l’open source sont partagées au delà de la sphère des communautés de développement logiciel.

1. Approche méthodologique

1.1 Un projet de recherche ouverte

Cette démarche de recherche exploratoire s’appuie sur un modèle ouvert et collaboratif grâce notamment à :

  • Utilisation de la plate-forme collaborative Gitlab (forge Inno³) : elle comprend notamment une fonctionnalité de wiki ;
  • Documentation : les interactions, les décisions prises et les réflexions autour du sujet d’étude ont été détaillés dans le wiki du projet à destination des personnes impliquées ;
  • Test de reproductibilité : véritable gage de transparence, c’est une manière de s’assurer que n’importe qui pourrait obtenir les mêmes résultats avec les mêmes données ;
  • Choix de l’outil open source Gephi pour réaliser les visualisations des graphes ;
  • Partage d’une bibliographie Zotero sur le sujet d’étude ;
  • Rédaction collaborative d’un article scientifique avec possibilité de laisser des commentaires sur PubPub ;
  • Entretiens avec les parties prenantes pour avoir des retours sur les premiers résultats.

1.2 Pourquoi un follow graph ?

La réalisation d’un follow graph est particulièrement utile pour une recherche exploratoire, car cela permet de produire une vue d’ensemble qui peut être complétée par la suite par d’autres approches. C’est notamment une bonne manière de détecter la présence de personnes influentes, ainsi que les interactions entre sous-communautés.

1.3 Une terminologie propre à l’analyse de réseaux :

Afin d’analyser les images des réseaux collectés, une légende précise vous permettra de comprendre les résultats obtenus :

  • nœuds (ou sommets) : points reliés du graphe ;
  • liens (ou arcs) : traits qui relient les points du graphe ;
  • degré : nombre total de connexions qui relient un nœud à d’autres nœuds du même graphe ;
  • algorithme Force Atlas 2 : série de calculs pour disposer les nœuds du graphe dans l’espace adapté à la visualisation de clusters ;
  • cluster (en français, petit-monde) : un regroupement de nœuds ;
  • communauté : lorsque les nœuds du réseau sont regroupés par rapport à certains critères pré-définis par un calcul ;
  • acteur : souvent utilisé en sociologie, le terme est employé pour désigner une entité dotée d’un pouvoir d’agir. Dans le cadre précis de cette étude, les acteurs sont les individus et institutions qui ont participé aux conférences @CHAOSSproj et @FosdemResearch.

2. Workflow data science : collecter, décrire, visualiser et analyser

2.1 De l’échantillon à l’écosystème

Un échantillon de 80 acteurs ayant participé aux rencontres @CHAOSSproj et @FosdemResearch a été obtenu manuellement en consultant les sites Web des conférences et leurs fils de discussion Twitter.

La liste des comptes Twitter associés aux acteurs a ensuite été enrichie avec des éléments complémentaires (nombre de followers, hashtags utilisés, compte personnel ou institutionnel, etc.) pour obtenir une description générale de l’échantillon. Comme il s’agit d’informations publiques, les pseudos de ces personnes ou institutions ont été conservés tels qu’ils apparaissent sur Twitter.

Quelques caractéristiques des résultats obtenus :

  • une répartition d’acteurs inégale entre les deux conférences
  • 55 utilisateurs ont tweeté uniquement avec le hashtag #ChaossCon
  • 25 utilisateurs uniquement avec les hashtags #Fosdem ou #fosdem2020
  • une répartition plutôt équitable entre intervenants et membres du public
  • 38 comptes sont associés aux intervenants des conférences
  • 2 comptes sont les comptes des institutions organisatrices
  • 40 comptes sont des comptes associés aux membres du public, qu’ils aient été présents sur place ou pas
  • une faible présence de comptes institutionnels
  • 10% de comptes institutionnels : @Bitergia, @redhatopen, @OSOReu, @cauldronio, @Inno_3, @eLifeInnovation, @thinkR, @secohealth
  • environ 17,5% de l’échantillon possède un fort potentiel d’influence
  • 10 comptes avec plus de 3000 abonnés
  • 5 comptes avec plus de 5000 abonnés : @mbbroberg, @redhatopen, @farbodsaraf, @ReaderMeter, @_inundata

Une fois la liste de 80 acteurs arrêtée, des requêtes ont été faites via l’API de Twitter pour collecter les données des followers et des following (ou friends selon la terminologie de Twitter). Le processus de collecte, de traitement et d’anonymisation des données est consultable sur Gitlab.

L’ensemble des étapes précédentes ont finalement permis d’obtenir le graphe à analyser : un réseau de suivi des acteurs qui contient 16 313 nœuds et 48 373 liens. Les outils de traitement de données massives ont permis de cartographier l’écosystème autour des conférences @CHAOSSproj et @FosdemResearch à partir d’un simple échantillon.

2.2 Cartographies d’acteurs

Une fois le graphe obtenu et suite à différentes opérations de filtrage, on obtient les images ci-dessous. Légende pour chacune de ces images :

  • Un nœud correspond à un compte Twitter individuel ou institutionnel.
  • Un lien correspond à un suivi (follow).
  • La taille des nœuds varie selon une mesure de centralité différente.
  • Pour chacune des mesures, seuls les nœuds les plus gros sont affichés.
  • Une couleur correspond à une “communauté” :
  • bleu : innovation ouverte
  • rose : open source en entreprise
  • vert : outils open source en recherche
  • orange : science ouverte et open source

Image 1 :

Centralité de degré : Dans l’image 1, plus un compte Twitter possède de connexions, plus le cercle qui le représente sur le graphe sera gros.

Image 2 :

Centralité intermédiaire : Dans l’image 2, plus un compte Twitter joue un rôle de “pont” entre les communautés du réseau, plus il sera de taille importante.

Image 3 :

Centralité de vecteur propre : Dans l’image 3, plus un compte Twitter sera connecté à d’autres comptes influents du réseau, plus il sera sera gros.

NB : Ces images ont été obtenues avec le logiciel Gephi et une spacialisation de l’algorithme Force Atlas 2.

2.3 Analyser le réseau

2.3.1 Le petit monde de l’open source en entreprise

La communauté rose compte le plus d’acteurs possédant un nombre élevé de relations au sein de l’écosystème des conférences @CHAOSSproj et @FosdemResearch (Image 1). C’est une communauté à fort potentiel d’influence sur la thématique de l’open source (Image 3). Ce sont les comptes Twitter d’acteurs majoritairement issus du monde des grandes entreprises comme Red Hat, la Fondation Linux, Microsoft, Spotify ou Indeed mais on y trouve aussi de plus petites entreprises comme Miro ou Bitergia, pour lesquelles l’open source constitue le domaine d’expertise ou le fondement d’une stratégie commerciale. Des quatre communautés détectées, c’est aussi celle qui possède la densité la plus élevée, ce qui fait preuve d’une forte réciprocité dans les suivis au sein du petit monde de l’open source en entreprise (Images 1 et 2). Au sein de cette communauté influente, le compte du développeur [@farbodsaraf], actif sur de nombreux projets open source, joue un rôle particulier de coordination et d’influence grâce à sa forte intermédiarité (Image 2).

2.3.2 Les liens faibles autour de l’open source en recherche

La communauté de couleur verte rassemble des personnes et des institutions expertes en outillage open source de la recherche. Les acteurs de cette communauté sont issus de secteurs divers et complémentaires. On y trouve des acteurs universitaires du monde francophone et anglophone (@trajectograph, @antoinent, @yomguithereal et @MeWjOr_, entre autres), du journalisme d’investigation (@bam_thomas), ainsi que du conseil et du développement (@NetanelMohoni, @ThinkR_fr et @Inno_3). Cette communauté se caractérise par une faible densité de connexion (Image 1 et 2), mais par la présence de plusieurs acteurs clefs à grande visibilité pour chacune des mesures de centralité. La présence faible mais transversale de noeuds verts sur les trois images donne à voir une communauté open source active dans le milieu de la recherche qui puise sa force dans le mutualisation de compétences autour de valeurs communes qui ne connaissent pas de frontières sectorielles ou disciplinaires.

2.3.3 La gestion de communautés scientifiques ouvertes

La communauté orange se compose de praticiens.ennes de sciences ouvertes épaulé.es par une éthique collaborative, des méthodes de travail collaboratif et des outils open source. On y trouve les comptes Twitter de profils variés comme celui des ingénieurs @Olivier_Aubert et @RoelandtN42 ou celui du développeur activiste @offrayLC, mais aussi la responsable du groupe de travail sur la diversité et l’inclusion du projet CHAOSS [@sunnydeveloper], la chercheuse et consultante @celyagd et le chercheur psychologue et entrepreneur @eknahm, parmi d’autres. Située à cheval sur les secteurs privés, publiques et associatifs, cette communauté à forte centralité intermédiaire joue un rôle important dans la gestion de communauté, la coordination et la passation d’informations autour des thématiques de la science ouverte et de la recherche ouverte (Image 2).

Les images du réseau de suivi des acteurs des conférences @CHAOSSproj et @FosdemResearch mettent en lumière la diversité des acteurs qui composent l’écosystème autour de la science ouverte et de l’open source, à cheval sur plusieurs secteurs. Les rôles des différentes communautés que l’on apperçoit se répartissent de manière complémentaire autour des sujets open source, open science et open research. Enfin, les images confirment visuellement que les acteurs les plus impliqués sur ces sujets imbriqués ne sont pas des “décideurs.ses” issus de la sphère politique, mais que l’écosystème se structure autour de relations entretenues entre praticiens.ennes de terrain.

3. Résultats préliminaires et perspectives

3.1 Un aperçu de l’écosystème

La première phase quantitative de ce projet donne un aperçu des relations entre acteurs de l’open source et de la science ouverte dans le contexte des conférences FOSDEM et CHAOSSCon. Plusieurs points ressortent de cette première observation :

  • Il existe actuellement une diversité d’acteurs et de secteurs complémentaires qui se positionnent à la croisé des domaines de la recherche et du développement logiciel open source, avec une présence forte d’entreprises privées.
  • L’écosystème autour de l’open source et de l’open science est structuré par les relations entre acteurs clefs issus de plusieurs communautés.
  • Malgré la reconnaissance récente du rôle de l’open source pour l’impulsion de la science ouverte en France, les conférences FOSDEM et CHAOSScon n’étaient pas fréquentées par des acteurs issus du secteur politique en 2020.

3.2 Acteurs clefs : simples passeurs ou « entrepreneurs de normes » ?

Les temps de rencontres formelles ou informelles lors de conférences ou d’échanges par différents canaux (forum, twitter, blogs, etc.) participent au partage de valeurs et de pratiques communes qui peuvent conduire à la prise d’actions concrètes pour faire évoluer un domaine comme celui de la science ouverte.

Mais qui sont finalement les acteurs “protagonistes” des rencontres @CHAOSSproj et @FosdemResearch susceptibles de faire évoluer les pratiques et outils pour impulser le développement de la science ouverte après 2020 ?

L’image ci-dessous montre les 20 comptes Twitter les plus centraux du réseau de suivi des conférences @CHAOSSproj et @FosdemResearch. Les noeuds ont été obtenus en combinant les mesures de centralité de vecteur propre et d’intermédiarité. La spacialisation obtenue avec l’algorithme Fruchterman Reingold met en avant la densité des liens entre ces acteurs.

Image 4 : Les 20 acteurs les plus centraux du réseau.

Un approfondissement qualitatif serait nécessaire pour en savoir plus sur les caractéristiques de ces personnes ou institutions et leur rôle au sein de la communauté. Sont-elles de simples passeuses d’information ou s’intéressent-elles à l’évolution des normes et la promotion de nouvelles façons de faire ? Correspondent-elles à ce que le juriste et philosophe américain Cass Sunstein appelait des “entrepreneurs de normes” ?

3.3 L’innovation en recherche passe par l’open source

La culture de l’open source, autrefois cantonée aux initiés du développement logiciel, s’est désormais faite une place toujours grandissante au sein de communautés scientifiques et de recherche, même lorsque celles-ci ont historiquement peu de pratiques computationnelles ou de familiarité avec les usages qui en découlent. Le médialab de Sciences Po Paris, co-organisateur de l’espace dédié à la recherche ouverte au FOSDEM, est un exemple d’institutionnalisation d’une culture de la recherche innovante fondée sur le développement de logiciels open source mis au service des sciences sociales. Comme le soulignait Paul Girard, anciennement ingénieur de recherche au medialab :

L’orientation qui a été prise pour la création du medialab, l’orientation donnée par Bruno Latour (à été de) prendre les technologies au sérieux, arrêter de considérer que la technologie est la cinquième roue du carrosse, c’est-à-dire la chose dont on ne doit pas s’occuper, puisque (pour beaucoup de chercheurs) ce qui est important c’est de penser, c’est de théoriser et le reste c’est de la tendance. (Le medialab) n’est pas un laboratoire en sciences sociales comme les autres. Sa particularité c’est d’avoir l’ambition de faire de l’innovation en méthodes de recherche.

Paul Girard

Conclusion

Afin de mieux comprendre les pratiques de l’open science et de l’open source dans leur articulation au quotidien entre plusieurs disciplines et cadres institutionnels, une enquête qualitative a démarré auprès des acteurs clefs du réseau identifiés lors de cette première phase.

L’objectif est d’utiliser cette cartographie comme un élément de discussion permettant d’accompagner la recherche qualitative. Ce réseau plus qu’une conclusion qui décrirait la richesse des relations entre open source et open science, est un premier jalon d’échange et de réflexion, un outil de médiation afin d’approfondir les réflexions sur les interactions entre open source et open science et les mécanismes de médiation associés (passeurs, rôle des outils, paysage internationale, etc.) au delà de ce premier cas d’étude.

Affaire à suivre

Ce billet a été rédigé par Maya Anderson-Gonzalez lors de son stage de Master 2 au sein d’inno³ en 2020 avec la relecture de Célya Gruson-Daniel et Camille Moulin.

Contenu disponible en CC-BY-SA

Ressources associées

  • Pour plus d’informations concernant l’obtention du follow graph, vous pouvez consulter le projet sur Framagit
  • Billet sur la participation d’Inno³ à CHAOSScon 2020