diff --git a/article_jres_olivier_amoi.fodt b/article_jres_olivier_amoi.fodt index 50bb0b4..7a657a4 100644 --- a/article_jres_olivier_amoi.fodt +++ b/article_jres_olivier_amoi.fodt @@ -1,29 +1,30 @@ - 2021-02-15T09:17:10.478673722PT3H14M13S49LibreOffice/7.0.4.2$Linux_X86_64 LibreOffice_project/00$Build-2Modèle et mini-guideModèle Jres 20212022-01-06T16:47:40.875463791Olivier Langella + 2021-02-15T09:17:10.478673722PT4H50M41S52LibreOffice/7.2.4.1$Linux_X86_64 LibreOffice_project/20$Build-1Modèle et mini-guideModèle Jres 20212022-01-07T01:28:07.900329662eda - 37043 + 131979 0 - 36826 - 14619 + 24825 + 14169 false false view2 - 13968 - 42527 + 6546 + 137668 0 - 37043 - 36825 - 51661 + 131979 + 24823 + 146147 0 0 false 110 false + false false @@ -47,6 +48,7 @@ false true false + false false false false @@ -70,6 +72,7 @@ 0 1 true + false high-resolution true @@ -94,7 +97,7 @@ true - 7862715 + 8293284 true false @@ -112,6 +115,7 @@ false false true + false false false @@ -146,21 +150,21 @@ - - - - - - + + + + + + - + @@ -394,113 +398,113 @@ - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + @@ -508,61 +512,61 @@ - + - + - + - + - + - + - + - + - + - + @@ -570,61 +574,61 @@ - + - + - + - + - + - + - + - + - + - + @@ -632,61 +636,61 @@ - + - + - + - + - + - + - + - + - + - + @@ -694,61 +698,61 @@ - + - + - + - + - + - + - + - + - + - + @@ -756,266 +760,266 @@ - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + @@ -1023,84 +1027,84 @@ - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + @@ -1127,245 +1131,310 @@ - - + + - + - + - - + + - - + + - - + + - + - + - - + + - - + + - - + + - + - + - + - + - + - + - + - + - + - + - + - + - + - + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + - + + + + + - + - + - - - - - - - - + - + - + - + - + - + - + - + - - - - - - - - - - + - + - - - - - - - - - - - - - - - - - - - + - + - + - + - + - + - - + + - - + + - + + + + + + + - - - - + - - - - - - - + - - - - - - - - - - + - - + + - - - - + - - + + - - + + + + + + + + - + - + - + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + @@ -1436,202 +1505,232 @@ - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + - + @@ -1639,11 +1738,14 @@ + + + - + - JRES 2021 – Marseille5/5 + JRES 2021 – Marseille7/7 @@ -1651,7 +1753,7 @@ - + Olivier Langella @@ -1659,7 +1761,7 @@ - + Olivier Langella @@ -1667,7 +1769,7 @@ - + Olivier Langella @@ -1675,7 +1777,7 @@ - + Olivier Langella @@ -1683,7 +1785,7 @@ - + Olivier Langella @@ -1691,7 +1793,7 @@ - + Olivier Langella @@ -1699,7 +1801,7 @@ - + Olivier Langella @@ -1707,7 +1809,7 @@ - + Olivier Langella @@ -1715,7 +1817,7 @@ - + Olivier Langella @@ -1723,7 +1825,7 @@ - + Olivier Langella @@ -1731,7 +1833,7 @@ - + Olivier Langella @@ -1739,7 +1841,7 @@ - + Olivier Langella @@ -1747,7 +1849,7 @@ - + Olivier Langella @@ -1755,7 +1857,7 @@ - + Olivier Langella @@ -1763,7 +1865,7 @@ - + Olivier Langella @@ -1771,7 +1873,7 @@ - + Olivier Langella @@ -1787,88 +1889,123 @@ - Modèle de l’article JRES - Edlira Nano - Laboratoire ou service - 38 rue de l’adresse - 13 013 Marseille - Olivier Langella - Plateforme PAPPSO - Laboratoire GQE-Le Moulon - Ferme du Moulon - 91190 Gif-sur-Yvette - France - olivier.langella@universite-paris-saclay.fr - - Filippo Rusconi - Plateforme PAPPSO - Laboratoire GQE-Le Moulon - Ferme du Moulon - 91190 Gif-sur-Yvette - France - filippo.rusconi@universite-paris-saclay.fr + Modèle de l’article JRES + Edlira Nano + Associations April, + La Quadrature Du Net, + informaticienne indépendante + eda@mutu.net / eda@laquadrature.net + Olivier Langella + Plateforme PAPPSO + Laboratoire GQE-Le Moulon + Ferme du Moulon + 91190 Gif-sur-Yvette + France + olivier.langella@universite-paris-saclay.fr + + Filippo Rusconi + Plateforme PAPPSO + Laboratoire GQE-Le Moulon + Ferme du Moulon + 91190 Gif-sur-Yvette + France + filippo.rusconi@universite-paris-saclay.fr Résumé - Ce document résume les instructions aux auteurs de la conférence JRES. - Le Logiciel libre et la recherche publique partagent un objectif : le bien commun, au service de tous. Cette présentation revient sur ce que sont le bien commun et la science ouverte pour essayer de les analyser à l'aide de l'exemple de la plateforme scientifique Analyses protéomiques de Paris Sud-Ouest(PAPPSO). - PAPPSO s'est dotée d'une infrastructure informatique complète basée exclusivement sur du Logiciel libre : réseau, serveurs, stockage, calcul et postes personnels. Elle développe plusieurs logiciels sous licence libre, dont ceux qui forment la chaîne de traitement des données de spectrométrie de masse. Ce choix naturel facilite la reproductibilité des traitements, apporte la maîtrise des logiciels et permet l'intégration de code source tiers. - L'apport majeur du Logiciel libre à la recherche publique permet l'utilisation des réseaux et systèmes informatiques. Scientifiquement, l'ouverture du code source et la liberté d'utilisation des logiciels garantissent l'échange des données, leur réutilisation et leur vérification par les pairs. Cet ensemble forme un bien commun protégé par des licences. De nombreux laboratoires y contribuent en utilisant ou en produisant des logiciels libres, comme en témoigne en partie la forge du code source du secteur public (https://code.etalab.gouv.fr). - Comment contribuer efficacement ? Quelles sont les recommandations et obligations pour les établissements publics ? Quelle licence choisir ? Comment une licence copyleft peut-elle aussi séduire les partenaires privés ? Nous apporterons des réponses et des éléments de réflexion pour corriger quelques fausses croyances et promouvoir la construction collective d'une culture libre, au service du bien commun.Le résumé doit faire de quinze à vingt lignes. Comme le reste du document, il utilise la feuille de style Jres ; ici, définition de style « Résumé » : écriture en italique, police avec empattement en taille 12 points. Le titre utilisant le style « Titre résumé » (ainsi que le titre « Mots-clefs » ci-dessous) sont en 14 points, gras, sans empattement. + Ce document résume les instructions aux auteurs de la conférence JRES. + Le Logiciel libre et la recherche publique partagent un objectif : le bien commun, au service de tous. Cette présentation revient sur ce que sont le bien commun et la science ouverte pour essayer de les analyser à l'aide de l'exemple de la plateforme scientifique Analyses protéomiques de Paris Sud-Ouest(PAPPSO). + PAPPSO s'est dotée d'une infrastructure informatique complète basée exclusivement sur du Logiciel libre : réseau, serveurs, stockage, calcul et postes personnels. Elle développe plusieurs logiciels sous licence libre, dont ceux qui forment la chaîne de traitement des données de spectrométrie de masse. Ce choix naturel facilite la reproductibilité des traitements, apporte la maîtrise des logiciels et permet l'intégration de code source tiers. + L'apport majeur du Logiciel libre à la recherche publique permet l'utilisation des réseaux et systèmes informatiques. Scientifiquement, l'ouverture du code source et la liberté d'utilisation des logiciels garantissent l'échange des données, leur réutilisation et leur vérification par les pairs. Cet ensemble forme un bien commun protégé par des licences. De nombreux laboratoires y contribuent en utilisant ou en produisant des logiciels libres, comme en témoigne en partie la forge du code source du secteur public (https://code.etalab.gouv.fr). + Comment contribuer efficacement ? Quelles sont les recommandations et obligations pour les établissements publics ? Quelle licence choisir ? Comment une licence copyleft peut-elle aussi séduire les partenaires privés ? Nous apporterons des réponses et des éléments de réflexion pour corriger quelques fausses croyances et promouvoir la construction collective d'une culture libre, au service du bien commun.Le résumé doit faire de quinze à vingt lignes. Comme le reste du document, il utilise la feuille de style Jres ; ici, définition de style « Résumé » : écriture en italique, police avec empattement en taille 12 points. Le titre utilisant le style « Titre résumé » (ainsi que le titre « Mots-clefs » ci-dessous) sont en 14 points, gras, sans empattement. Mots-clefs - logiciel libre, IPV6, PKI, CMS, Calmarlicences, protéomique - IntroductionPlateforme d’analyses protéomiques - La protéomique est l’étude de l’ensemble des protéines produites par une cellule, un organe ou un organisme dans des conditions particulières ou en réponse à un traitement. Elle permet de répondre à de nombreuses questions biologiques, de comprendre la physiologie ou différentes pathologies dans des espèces distinctes ou dans des groupes d’espèces (métaprotéomique). On peut connaître les protéines impliquées dans un processus biologique, ainsi que leur quantité et en déduire les caractéristiques de certains génomes ou lignées, ou encore comprendre la réponse physiologique liée à un stress, par exemple. - Depuis 1997, date d’apparition du terme « protéomique », les techniques utilisées n’ont cessé d’évoluer. Il s'agit néanmoins toujours de mesurer la masse moléculaire des molécules qui pénètrent dans l'instrument: un spectromètre de masse. Dans une expérience de protéomique, les échantillons biologiques sont préparés, les protéines extraites, séparées par chromatographie et analysées par spectrométrie de masse. - Les analyses par spectrométrie de masse produisent de grandes quantités de données, directement en sortie de l'instrument. Chaque fabricant a son propre format de données, qui est le plus souvent propriétaire. Ordinairement, les données aux formats propriétaires sont traitées par les logiciels fournis avec l'instrument, eux aussi propriétaires. Comme souvent dans le domaine des formats de fichiers, ces formats ne sont pas pérennes et les licences d'utilisation des logiciels propriétaires sont très coûteuses. Il y a donc ici un problème majeur d'interopérabilité. - Depuis 2005, la plateforme scientifique "Analyses protéomiques de Paris Sud-Ouest" (PAPPSO) a fait le choix du Logiciel libre pour garantir la pérennité de ses chaînes de traitement, la reproductibilité des expériences et la capitalisation de son savoir faire. - Il est recommandé d’utiliser la dernière version stable de Libre Office (au moment de la rédaction, v7.0.4). - Le document sera finalement transformé en format « Portable Document Format » (.pdf) pour la phase finale de publication. - Taille des articlesTransition des logiciels propriétaires au Logiciel libre - L’article doit faire entre 5 et 10 pages.Le passage progressif au Logiciel libre a permis une rationalisation de l’utilisation des ressources informatiques. Nous sommes passés de postes dédiés à licence unique pour usage unique à une infrastructure collective combinant stockage, calcul et enchaînement des traitements depuis n’importe quel poste de travail. - Durant la période 2005–2015, notre travail a été facilité par la définition de formats standards en protéomique, l’émergence de nombreux logiciels libres dans le domaine [1]et le développement en interne de nouvelles solutions logicielles (PROTICdb [2], mineXpert2 [3], X!TandemPipeline [4], MassChroQ [5]). - Choix du système d'exploitation - Le choix de PAPPSO s’est porté d’abord sur la distribution GNU/Linux Ubuntu, puis sur Debian. Un groupe de développeurs officiels Debian, dont un auteur de ce rapport, s'attache à fournir dans la distribution de nombreux logiciels pour la chimie, et en particulier pour la spectrométrie de masse ("team debichem"). L'intérêt principal de la distribution Debian est la richesse de son offre logicielle qui permet de disposer d'un socle de fonctionnalités robuste couvrant les exigences "serveur" et les impératifs "bureautique". Tous les logiciels développés par PAPPSO sont disponibles sous forme de paquets Debian dans des dépôts publics. Le déploiement des logiciels sur les serveurs et les postes de travail de l’équipe est ainsi totalement automatisé. - Stockage - Les besoins en stockage de la plateforme évoluent constamment en fonction des progrès techniques. Chaque nouvelle génération d'instrument apporte des améliorations, en particulier sur la précision de mesure de masse, qui provoquent une augmentation significative du volume des données générées. - Le système de stockage des données de spectrométrie de masse doit permettre une adaptation en continu de la volumétrie d'espace disque disponible ainsi que les meilleures performances en lecture et écriture. Les solutions classiques de type NAS ont été écartées pour éviter la dépendance matérielle et les problèmes liés au renouvellement des équipements. - Dès 2011, nous avons été parmi les premiers à faire confiance à une solution nouvelle de stockage distribué: Ceph. La principale caractéristique de ce système de stockage est de ne requérir que des serveurs standard. La flexibilité et l'adaptabilité de ce système à des besoins perpétuellement en évolution en ont fait la solution la plus robuste que nous connaissions. - + logiciel libre, IPV6, PKI, CMS, Calmarlicences, protéomique + + % Ajouter Intro : Poser le contexte, présenter le sujet, et faire le lien entre nos parties puis annoncer le plan. + IntroductionPlateforme d’analyses protéomiques + La protéomique est l’étude de l’ensemble des protéines produites par une cellule, un organe ou un organisme dans des conditions particulières ou en réponse à un traitement. Elle permet de répondre à de nombreuses questions biologiques, de comprendre la physiologie ou différentes pathologies dans des espèces distinctes ou dans des groupes d’espèces (métaprotéomique). On peut connaître les protéines impliquées dans un processus biologique, ainsi que leur quantité et en déduire les caractéristiques de certains génomes ou lignées, ou encore comprendre la réponse physiologique liée à un stress, par exemple. + Depuis 1997, date d’apparition du terme « protéomique », les techniques utilisées n’ont cessé d’évoluer. Il s'agit néanmoins toujours de mesurer la masse moléculaire des molécules qui pénètrent dans l'instrument: un spectromètre de masse. Dans une expérience de protéomique, les échantillons biologiques sont préparés, les protéines extraites, séparées par chromatographie et analysées par spectrométrie de masse. + Les analyses par spectrométrie de masse produisent de grandes quantités de données, directement en sortie de l'instrument. Chaque fabricant a son propre format de données, qui est le plus souvent propriétaire. Ordinairement, les données aux formats propriétaires sont traitées par les logiciels fournis avec l'instrument, eux aussi propriétaires. Comme souvent dans le domaine des formats de fichiers, ces formats ne sont pas pérennes et les licences d'utilisation des logiciels propriétaires sont très coûteuses. Il y a donc ici un problème majeur d'interopérabilité. + Depuis 2005, la plateforme scientifique "Analyses protéomiques de Paris Sud-Ouest" (PAPPSO) a fait le choix du Logiciel libre pour garantir la pérennité de ses chaînes de traitement, la reproductibilité des expériences et la capitalisation de son savoir faire. + Il est recommandé d’utiliser la dernière version stable de Libre Office (au moment de la rédaction, v7.0.4). + Le document sera finalement transformé en format « Portable Document Format » (.pdf) pour la phase finale de publication. + Taille des articlesTransition des logiciels propriétaires au Logiciel libre + L’article doit faire entre 5 et 10 pages.Le passage progressif au Logiciel libre a permis une rationalisation de l’utilisation des ressources informatiques. Nous sommes passés de postes dédiés à licence unique pour usage unique à une infrastructure collective combinant stockage, calcul et enchaînement des traitements depuis n’importe quel poste de travail. + Durant la période 2005–2015, notre travail a été facilité par la définition de formats standards en protéomique, l’émergence de nombreux logiciels libres dans le domaine [1]et le développement en interne de nouvelles solutions logicielles (PROTICdb [2], mineXpert2 [3], X!TandemPipeline [4], MassChroQ [5]). + Choix du système d'exploitation + Le choix de PAPPSO s’est porté d’abord sur la distribution GNU/Linux Ubuntu, puis sur Debian. Un groupe de développeurs officiels Debian, dont un auteur de ce rapport, s'attache à fournir dans la distribution de nombreux logiciels pour la chimie, et en particulier pour la spectrométrie de masse ("team debichem"). L'intérêt principal de la distribution Debian est la richesse de son offre logicielle qui permet de disposer d'un socle de fonctionnalités robuste couvrant les exigences "serveur" et les impératifs "bureautique". Tous les logiciels développés par PAPPSO sont disponibles sous forme de paquets Debian dans des dépôts publics. Le déploiement des logiciels sur les serveurs et les postes de travail de l’équipe est ainsi totalement automatisé. + Stockage + Les besoins en stockage de la plateforme évoluent constamment en fonction des progrès techniques. Chaque nouvelle génération d'instrument apporte des améliorations, en particulier sur la précision de mesure de masse, qui provoquent une augmentation significative du volume des données générées. + Le système de stockage des données de spectrométrie de masse doit permettre une adaptation en continu de la volumétrie d'espace disque disponible ainsi que les meilleures performances en lecture et écriture. Les solutions classiques de type NAS ont été écartées pour éviter la dépendance matérielle et les problèmes liés au renouvellement des équipements. + Dès 2011, nous avons été parmi les premiers à faire confiance à une solution nouvelle de stockage distribué: Ceph. La principale caractéristique de ce système de stockage est de ne requérir que des serveurs standard. La flexibilité et l'adaptabilité de ce système à des besoins perpétuellement en évolution en ont fait la solution la plus robuste que nous connaissions. + - Figure 1Evolution des besoins de stockage de la plateforme en To/an, comparée à l’évolution des disques durs - Calcul - La plateforme PAPPSO est spécialisée dans les traitements en protéomique haut débit (nombreux échantillons à traiter dans les plus brefs délais). Pour assurer la disponibilité de nos moyens de calcul à l’ensemble des utilisateurs, nous utilisons le gestionnaire de processus HTCondor. - Les besoins en calcul évoluent eux aussi en fonction des instruments utilisés. Avec l’évolution des techniques, de nouvelles possibilités sont apparues dans le traitement de données en protéomique exigeant elles aussi des capacités de calcul supplémentaires. Les machines dédiées au calcul doivent être ainsi renouvelées régulièrement et intégrées au fur et à mesure (comme pour le stockage). - Evolution sur 10 ans - Matériel - L’intégration de nouvelles machines de calcul ou de stockage s’est faite de manière transparente. Nous sommes passés d’une capacité de stockage initiale de 18To (3 serveurs R515, disques de 3To) en 2011 à une capacité de 917To (8 serveurs hétérogènes). Le réseau est passé du 1Gb cuivre au 10Gb SFP+. Il n’y a pas eu de transfert de données/migration, pas de modification de l’architecture logique pour les utilisateurs. Le système de fichiers cephfs permet un accès direct aux données depuis chaque nœud de calcul. Globalement, les performances ont suivi les évolutions matérielles (augmentation du débit, augmentation des capacités de calcul). La résistance aux pannes a été mise à rude épreuve (panne électrique, disques ou erreurs humaines) et nous n’avons jamais eu de perte de données. - Logiciel - Les systèmes pour les serveurs et pour les postes utilisateur ont été migrés en 2013 de Ubuntu vers Debian. Nous y avons gagné en stabilité et en simplicité lors des mises à jour de version. La stratégie consiste à maintenir le parc informatique sous Debian "stable" et effectuer le passage à la version successive dans les mois qui suivent sa publication officielle. Le stockage centralisé est disponible pour tous les postes dans une arborescence commune, via un montage automatique sur les nœud de calculs (cephfs via systemd sur les serveurs, sshfs sur les postes clients). Les logiciels sont les mêmes sur les serveurs et les postes utilisateurs. L’accès distant au cluster de calcul se fait avec x2go via une clé publique ssh. - Scientifique - Les analyses de la plateforme ont évolué pour passer de la technique des gels électrophorèses 2D vers les analyses shotgun en spectrométrie de masse. Le traitement d’images 2D était majoritairement effectué avec des logiciels propriétaires sous Windows, sur des postes dédiés, ce qui limitait les capacités de traitement. Le passage progressif à des processus analytiques qui faisaient l'économie de l'étape d'électrophorèse a coincidé avec la révolution du Logiciel libre dans le domaine scientifique au milieu des années 2000. Nous avons alors pu effectuer la transition vers des logiciels libres. Cependant, les logiciels disponibles étaient principalement des librairies encore imparfaitement dotées des fonctionnalités requises. Nous avons alors entrepris le développement de nos logiciels sur la base des besoins scientifiques particuliers à notre plateformeLe logiciel MassChroQ est né ainsi, de nos besoins en protéomique quantitative. Note indépendance vis-à-vis des formats de données propriétaires des fabricants nous a permis de produire un logiciel évolutif et pérenne dès le départ, évitant l’effet « boîte noire ». Ainsi, notre offre logicielle a pu être adaptée au fur et à mesure aux nouvelles techniques, à des instruments significativement différents de génération en génération, absorbant ainsi les « chocs » technologiques : doublement des fréquences d’acquisition à chaque génération (3 ans), doublement du pouvoir résolutif (précision des mesures des masse). - La dernière « rupture technologique » a été l’apparition du timsTOF Pro du fabricant Bruker. Cet appareil dispose d’une fréquence d’acquisition 10 fois supérieure à celle de la génération précédente ainsi que d’une nouvelle dimension de séparation des peptides (mobilité ionique). Fait unique depuis les débuts de la protéomique, Bruker nous a confié les spécifications techniques de son format de fichier de données. Cela nous a permis d’adapter MassChroQ pour pouvoir utiliser de manière native les données obtenues sur cet instrument. Notre savoir faire en développment C++ nous a ainsi permis d'obtenir des gains de performances remarquables par rapport aux logiciels commerciaux, ainsi que de meilleurs résultats scientifiques. - - Bilan - Le passage au Logiciel libre pour tous les besoins informatiques de la plateforme PAPPSO a permis une maîtrise totale de ses outils, depuis la production des données brutes jusqu’à l’interprétation biologique. Les sommes importantes économisées en licences de logiciels propriétaires (20k€ par an) ont été transférées dans la maintenance des ressources de calcul et de stockage. Le savoir faire développé par PAPPSO dans l’analyse protéomique haut débit est reconnu au niveau international (129 articles citant MassChroQ depuis 2011, publication d’un article de référence en métaprotéomique [6]). Toutes les analyses sont complètement vérifiables et reproductibles, les logiciels étant tous librement téléchargeables, sous licence GPLv3, sans demande préalable. - - + Figure 1Evolution des besoins de stockage de la plateforme en To/an, comparée à l’évolution des disques durs + Calcul + La plateforme PAPPSO est spécialisée dans les traitements en protéomique haut débit (nombreux échantillons à traiter dans les plus brefs délais). Pour assurer la disponibilité de nos moyens de calcul à l’ensemble des utilisateurs, nous utilisons le gestionnaire de processus HTCondor. + Les besoins en calcul évoluent eux aussi en fonction des instruments utilisés. Avec l’évolution des techniques, de nouvelles possibilités sont apparues dans le traitement de données en protéomique exigeant elles aussi des capacités de calcul supplémentaires. Les machines dédiées au calcul doivent être ainsi renouvelées régulièrement et intégrées au fur et à mesure (comme pour le stockage). + Evolution sur 10 ans + Matériel + L’intégration de nouvelles machines de calcul ou de stockage s’est faite de manière transparente. Nous sommes passés d’une capacité de stockage initiale de 18To (3 serveurs R515, disques de 3To) en 2011 à une capacité de 917To (8 serveurs hétérogènes). Le réseau est passé du 1Gb cuivre au 10Gb SFP+. Il n’y a pas eu de transfert de données/migration, pas de modification de l’architecture logique pour les utilisateurs. Le système de fichiers cephfs permet un accès direct aux données depuis chaque nœud de calcul. Globalement, les performances ont suivi les évolutions matérielles (augmentation du débit, augmentation des capacités de calcul). La résistance aux pannes a été mise à rude épreuve (panne électrique, disques ou erreurs humaines) et nous n’avons jamais eu de perte de données. + Logiciel + Les systèmes pour les serveurs et pour les postes utilisateur ont été migrés en 2013 de Ubuntu vers Debian. Nous y avons gagné en stabilité et en simplicité lors des mises à jour de version. La stratégie consiste à maintenir le parc informatique sous Debian "stable" et effectuer le passage à la version successive dans les mois qui suivent sa publication officielle. Le stockage centralisé est disponible pour tous les postes dans une arborescence commune, via un montage automatique sur les nœud de calculs (cephfs via systemd sur les serveurs, sshfs sur les postes clients). Les logiciels sont les mêmes sur les serveurs et les postes utilisateurs. L’accès distant au cluster de calcul se fait avec x2go via une clé publique ssh. + Scientifique + Les analyses de la plateforme ont évolué pour passer de la technique des gels électrophorèses 2D vers les analyses shotgun en spectrométrie de masse. Le traitement d’images 2D était majoritairement effectué avec des logiciels propriétaires sous Windows, sur des postes dédiés, ce qui limitait les capacités de traitement. Le passage progressif à des processus analytiques qui faisaient l'économie de l'étape d'électrophorèse a coincidé avec la révolution du Logiciel libre dans le domaine scientifique au milieu des années 2000. Nous avons alors pu effectuer la transition vers des logiciels libres. Cependant, les logiciels disponibles étaient principalement des librairies encore imparfaitement dotées des fonctionnalités requises. Nous avons alors entrepris le développement de nos logiciels sur la base des besoins scientifiques particuliers à notre plateformeLe logiciel MassChroQ est né ainsi, de nos besoins en protéomique quantitative. Note indépendance vis-à-vis des formats de données propriétaires des fabricants nous a permis de produire un logiciel évolutif et pérenne dès le départ, évitant l’effet « boîte noire ». Ainsi, notre offre logicielle a pu être adaptée au fur et à mesure aux nouvelles techniques, à des instruments significativement différents de génération en génération, absorbant ainsi les « chocs » technologiques : doublement des fréquences d’acquisition à chaque génération (3 ans), doublement du pouvoir résolutif (précision des mesures des masse). + La dernière « rupture technologique » a été l’apparition du timsTOF Pro du fabricant Bruker. Cet appareil dispose d’une fréquence d’acquisition 10 fois supérieure à celle de la génération précédente ainsi que d’une nouvelle dimension de séparation des peptides (mobilité ionique). Fait unique depuis les débuts de la protéomique, Bruker nous a confié les spécifications techniques de son format de fichier de données. Cela nous a permis d’adapter MassChroQ pour pouvoir utiliser de manière native les données obtenues sur cet instrument. Notre savoir faire en développment C++ nous a ainsi permis d'obtenir des gains de performances remarquables par rapport aux logiciels commerciaux, ainsi que de meilleurs résultats scientifiques. + + Bilan (%eda : mettre ce paragraphe en 2.4 et garder le 3 pour ma partie?) + Le passage au Logiciel libre pour tous les besoins informatiques de la plateforme PAPPSO a permis une maîtrise totale de ses outils, depuis la production des données brutes jusqu’à l’interprétation biologique. Les sommes importantes économisées en licences de logiciels propriétaires (20k€ par an) ont été transférées dans la maintenance des ressources de calcul et de stockage. Le savoir faire développé par PAPPSO dans l’analyse protéomique haut débit est reconnu au niveau international (129 articles citant MassChroQ depuis 2011, publication d’un article de référence en métaprotéomique [6]). Toutes les analyses sont complètement vérifiables et reproductibles, les logiciels étant tous librement téléchargeables, sous licence GPLv3, sans demande préalable. + + Importance et apports du libre dans la recherche scientifique + Importance + * idéologique : idée de contribution aux communs, revenir sur l’histoire et la fonction de la recherche publique, notion de liberté et d’éthique du travail public + * scientifique :, parler de la campagne public money public code, // avec l’édition libre et culture libre en général + * pratico-pragmatique + Apports + * scientifique (PAPPSO ci dessus) + * informatique: sécurité, communauté, auditable etc ... + * pratico-pragmatique (travail communautaire, économies sur les licences et autres coûts?) + * longévité (citer le rapport cour des comptes sur les logiciels en milieu médical) + citer d’autres exemples que Pappso pdes et des contrexemples (inkscape, plantnet, Rijkmuseum, etc …) + * parler de œuvre culturelle libre + * avantages économiques ? quelques mots sur les modèles économiques actuels du libre (au passage parler de la SAT) + * idéologique : bien commun + lutter contre la marchandisation de la recherche publique + Comment libérer ses logiciels / infrastructures en pratique ? + Etat actuel des recommandations et obligations officielles versus difficultés rencontrées + * Recommandations et obligations publiques actuelles + * circulaire Eyraut + * Bothorel + * Etalab + * SILL + versus + * Freins concrets / réalité + * marchés fermés + Et enfin – comment les déjouer et procéder en pratique ? + * code.gouv.fr + * https://communs.numerique.gouv.fr/ + * Etalab, ateliers et gazette bluehats : https://communs.numerique.gouv.fr/bluehats/ateliers/ + (Idée % de conclusion : privacy by default, security by design → libre parce que public, ou alors public money, public interest & public code) + + + + Bibliographie - + - Rusconi F. Free Open Source Software for Protein and Peptide Mass Spectrometry- based Science. Curr Protein Pept Sci, 2 (22) 134-147, 2021 ; https://doi.org/10.2174/1389203722666210118160946 + Rusconi F. Free Open Source Software for Protein and Peptide Mass Spectrometry- based Science. Curr Protein Pept Sci, 2 (22) 134-147, 2021 ; https://doi.org/10.2174/1389203722666210118160946 - Langella O. , Valot B., Jacob D., Balliau T., Flores R., Hoogland C., Joets J., Zivy M.. (2013) Management and dissemination of MS proteomic data with PROTICdb: Example of a quantitative comparison between methods of protein extraction. Proteomics, 9 (13) 1457-66 + Langella O. , Valot B., Jacob D., Balliau T., Flores R., Hoogland C., Joets J., Zivy M.. (2013) Management and dissemination of MS proteomic data with PROTICdb: Example of a quantitative comparison between methods of protein extraction. Proteomics, 9 (13) 1457-66 - Langella O, Rusconi F. mineXpert2: Full-Depth Visualization and Exploration of MSn Mass Spectrometry Data. J. Am. Soc. Mass Spectrom., 4 (32) 1138-114, mars 2021 ; https://doi.org/10.1021/jasms.0c00402 + Langella O, Rusconi F. mineXpert2: Full-Depth Visualization and Exploration of MSn Mass Spectrometry Data. J. Am. Soc. Mass Spectrom., 4 (32) 1138-114, mars 2021 ; https://doi.org/10.1021/jasms.0c00402 - Langella O, Valot B, Balliau T, Blein-Nicolas M, Bonhomme L, Zivy M. X!TandemPipeline: A Tool to Manage Sequence Redundancy for Protein Inference and Phosphosite Identification. J. Proteome Res., 2 (16) 494-503, décembre 2016 ; https://doi.org/10.1021/acs.jproteome.6b00632 + Langella O, Valot B, Balliau T, Blein-Nicolas M, Bonhomme L, Zivy M. X!TandemPipeline: A Tool to Manage Sequence Redundancy for Protein Inference and Phosphosite Identification. J. Proteome Res., 2 (16) 494-503, décembre 2016 ; https://doi.org/10.1021/acs.jproteome.6b00632 - Valot B, Langella O, Nano E, Zivy M. MassChroQ: a versatile tool for mass spectrometry quantification. Proteomics, 17 (11) 3572-3577, juin 2011 ; https://doi.org/10.1002/pmic.201100120 + Valot B, Langella O, Nano E, Zivy M. MassChroQ: a versatile tool for mass spectrometry quantification. Proteomics, 17 (11) 3572-3577, juin 2011 ; https://doi.org/10.1002/pmic.201100120 - Van Den Bossche T, Kunath BJ, Schallert K, Schäpe SS, Abraham PE, Armengaud J, Arntzen M, Bassignani A, Benndorf D, Fuchs S, Giannone RJ, Griffin TJ, Hagen LH, Halder R, Henry C, Hettich RL, Heyer R, Jagtap P, Jehmlich N, Jensen M, Juste C, Kleiner M, Langella O, Lehmann T, Leith E, May P, Mesuere B, Miotello G, Peters SL, Pible O, Queiros PT, Reichl U, Renard BY, Schiebenhoefer H, Sczyrba A, Tanca A, Trappe K, Trezzi JP, Uzzau S, Verschaffelt P, von Bergen M, Wilmes P, Wolf M, Martens L, Muth T. Critical Assessment of MetaProteome Investigation (CAMPI): a multi-laboratory comparison of established workflows. Nature Communiations, 1 (12) 7305, décembre 2021 ; https://doi.org/10.1038/s41467-021-27542-8 + Van Den Bossche T, Kunath BJ, Schallert K, Schäpe SS, Abraham PE, Armengaud J, Arntzen M, Bassignani A, Benndorf D, Fuchs S, Giannone RJ, Griffin TJ, Hagen LH, Halder R, Henry C, Hettich RL, Heyer R, Jagtap P, Jehmlich N, Jensen M, Juste C, Kleiner M, Langella O, Lehmann T, Leith E, May P, Mesuere B, Miotello G, Peters SL, Pible O, Queiros PT, Reichl U, Renard BY, Schiebenhoefer H, Sczyrba A, Tanca A, Trappe K, Trezzi JP, Uzzau S, Verschaffelt P, von Bergen M, Wilmes P, Wolf M, Martens L, Muth T. Critical Assessment of MetaProteome Investigation (CAMPI): a multi-laboratory comparison of established workflows. Nature Communiations, 1 (12) 7305, décembre 2021 ; https://doi.org/10.1038/s41467-021-27542-8