2021-02-15T09:17:10.478673722PT3H10M36S47LibreOffice/7.0.4.2$Linux_X86_64 LibreOffice_project/00$Build-2Modèle et mini-guideModèle Jres 20212022-01-06T13:19:51.607419200Olivier Langella 119606 0 36826 14619 false false view2 13718 127108 0 119606 36825 134223 0 0 false 110 false false false false false true true true true true false 0 false false false true false false true false false false false false true false false false false false false false true false false true false false false true 0 1 true high-resolution true false false true false true true false true fr FR true 7827676 true false true 0 false false false false false true false false false false true false false false true false false false false false false false false false 376182 false false false false false true false true true JRES 2021 – Marseille5/5 Olivier Langella 2022-01-04T15:56:49 Olivier Langella 2022-01-04T15:57:06 Olivier Langella 2022-01-04T15:57:20 Olivier Langella 2022-01-04T15:57:25 Olivier Langella 2022-01-04T15:57:27 Olivier Langella 2022-01-04T16:08:39 Olivier Langella 2022-01-04T15:59:48 Olivier Langella 2022-01-04T15:59:48 Olivier Langella 2022-01-04T16:00:01 Olivier Langella 2022-01-04T16:45:23 Olivier Langella 2022-01-04T16:49:26 Olivier Langella 2022-01-04T16:52:23 Olivier Langella 2022-01-04T17:18:31 Olivier Langella 2022-01-04T17:24:12 Olivier Langella 2022-01-04T17:19:50 Olivier Langella 2022-01-04T17:49:03 Modèle de l’article JRES Edlira Nano Laboratoire ou service 38 rue de l’adresse 13 013 Marseille Olivier Langella Plateforme PAPPSO Laboratoire GQE-Le Moulon Ferme du Moulon 91190 Gif-sur-Yvette France olivier.langella@universite-paris-saclay.fr Filippo Rusconi Plateforme PAPPSO Laboratoire GQE-Le Moulon Ferme du Moulon 91190 Gif-sur-Yvette France filippo.rusconi@universite-paris-saclay.fr Résumé Ce document résume les instructions aux auteurs de la conférence JRES. Le Logiciel libre et la recherche publique partagent un objectif : le bien commun, au service de tous. Cette présentation revient sur ce que sont le bien commun et la science ouverte pour essayer de les analyser à l'aide de l'exemple de la plateforme scientifique Analyses protéomiques de Paris Sud-Ouest(PAPPSO). PAPPSO s'est dotée d'une infrastructure informatique complète basée exclusivement sur du Logiciel libre : réseau, serveurs, stockage, calcul et postes personnels. Elle développe plusieurs logiciels sous licence libre, dont ceux qui forment la chaîne de traitement des données de spectrométrie de masse. Ce choix naturel facilite la reproductibilité des traitements, apporte la maîtrise des logiciels et permet l'intégration de code source tiers. L'apport majeur du Logiciel libre à la recherche publique permet l'utilisation des réseaux et systèmes informatiques. Scientifiquement, l'ouverture du code source et la liberté d'utilisation des logiciels garantissent l'échange des données, leur réutilisation et leur vérification par les pairs. Cet ensemble forme un bien commun protégé par des licences. De nombreux laboratoires y contribuent en utilisant ou en produisant des logiciels libres, comme en témoigne en partie la forge du code source du secteur public (https://code.etalab.gouv.fr). Comment contribuer efficacement ? Quelles sont les recommandations et obligations pour les établissements publics ? Quelle licence choisir ? Comment une licence copyleft peut-elle aussi séduire les partenaires privés ? Nous apporterons des réponses et des éléments de réflexion pour corriger quelques fausses croyances et promouvoir la construction collective d'une culture libre, au service du bien commun.Le résumé doit faire de quinze à vingt lignes. Comme le reste du document, il utilise la feuille de style Jres ; ici, définition de style « Résumé » : écriture en italique, police avec empattement en taille 12 points. Le titre utilisant le style « Titre résumé » (ainsi que le titre « Mots-clefs » ci-dessous) sont en 14 points, gras, sans empattement. Mots-clefs logiciel libre, IPV6, PKI, CMS, Calmarlicences, protéomique IntroductionPlateforme d’analyses protéomiques La protéomique est l’étude de l’ensemble des protéines produites par une cellule, un organe ou un organisme dans des conditions particulières ou en réponse à un traitement. Elle permet de répondre à de nombreuses questions biologiques, de comprendre la physiologie ou différentes pathologies dans des espèces distinctes ou dans des groupes d’espèces (métaprotéomique). On peut connaître les protéines impliquées dans un processus biologique, ainsi que leur quantité et en déduire les caractéristiques de certains génomes ou lignées, ou encore comprendre la réponse physiologique liée à un stress, par exemple. Depuis 1997, date d’apparition du terme « protéomique », les techniques utilisées n’ont cessé d’évoluer. Il s'agit néanmoins toujours de mesurer la masse moléculaire des molécules qui pénètrent dans l'instrument: un spectromètre de masse. Dans une expérience de protéomique, les échantillons biologiques sont préparés, les protéines extraites, séparées par chromatographie et analysées par spectrométrie de masse. Les analyses par spectrométrie de masse produisent de grandes quantités de données, directement en sortie de l'instrument. Chaque fabricant a son propre format de données, qui est le plus souvent propriétaire. Ordinairement, les données aux formats propriétaires sont traitées par les logiciels fournis avec l'instrument, eux aussi propriétaires. Comme souvent dans le domaine des formats de fichiers, ces formats ne sont pas pérennes et les licences d'utilisation des logiciels propriétaires sont très coûteuses. Il y a donc ici un problème majeur d'interopérabilité. Depuis 2005, la plateforme scientifique "Analyses protéomiques de Paris Sud-Ouest" (PAPPSO) a fait le choix du logiciel libre pour garantir la pérennité de ses chaînes de traitement, la reproductibilité des expériences et la capitalisation de son savoir faire. Il est recommandé d’utiliser la dernière version stable de Libre Office (au moment de la rédaction, v7.0.4). Le document sera finalement transformé en format « Portable Document Format » (.pdf) pour la phase finale de publication. Taille des articlesTransition des logiciels propriétaires au Logiciel libre L’article doit faire entre 5 et 10 pages.Le passage progressif au Logiciel libre a permis une rationalisation de l’utilisation des ressources informatiques. Nous sommes passés de postes dédiés à licence unique pour usage unique à une infrastructure collective combinant stockage, calcul et enchaînement des traitements depuis n’importe quel poste de travail. Durant la période 2005–2015, notre travail a été facilité par la définition de formats standards en protéomique, l’émergence de nombreux logiciels libres dans le domaine [1]et le développement en interne de nouvelles solutions logicielles (PROTICdb [2], mineXpert2 [3], X!TandemPipeline [4], MassChroQ [5]). Choix du système d'exploitation Le choix de PAPPSO s’est porté d’abord sur la distribution GNU/Linux Ubuntu, puis sur Debian. Un groupe de développeurs officiels Debian, dont un auteur de ce rapport, s'attache à fournir dans la distribution de nombreux logiciels pour la chimie, et en particulier pour la spectrométrie de masse ("team debichem"). L'intérêt principal de la distribution Debian est la richesse de son offre logicielle qui permet de disposer d'un socle de fonctionnalités robuste couvrant les exigences "serveur" et les impératifs "bureautique". Tous les logiciels développés par PAPPSO sont disponibles sous forme de paquets Debian dans des dépôts publics. Le déploiement des logiciels sur les serveurs et les postes de travail de l’équipe est ainsi totalement automatisé. Stockage Les besoins en stockage de la plateforme évoluent constamment en fonction des progrès techniques. Chaque nouvelle génération d'instrument apporte des améliorations, en particulier sur la précision de mesure de masse, qui provoquent une augmentation significative du volume des données générées. Le système de stockage des données de spectrométrie de masse doit permettre une adaptation en continu de la volumétrie d'espace disque disponible ainsi que les meilleures performances en lecture et écriture. Les solutions classiques de type NAS ont été écartées pour éviter la dépendance matérielle et les problèmes liés au renouvellement des équipements. Dès 2011, nous avons été parmi les premiers à faire confiance à une solution nouvelle de stockage distribué: Ceph. La principale caractéristique de ce système de stockage est de ne requérir que des serveurs standard. La flexibilité et l'adaptabilité de ce système à des besoins perpétuellement en évolution en ont fait la solution la plus robuste que nous connaissions. Figure 1Evolution des besoins de stockage de la plateforme en To/an, comparée à l’évolution des disques durs Calcul La plateforme PAPPSO est spécialisée dans les traitements en protéomique haut débit (nombreux échantillons à traiter dans les plus brefs délais). Pour assurer la disponibilité de nos moyens de calcul à l’ensemble des utilisateurs, nous utilisons le gestionnaire de processus HTCondor. Les besoins en calcul évoluent eux aussi en fonction des instruments utilisés. Avec l’évolution des techniques, de nouvelles possibilités sont apparues dans le traitement de données en protéomique exigeant elles aussi des capacités de calcul supplémentaires. Les machines dédiées au calcul doivent être ainsi renouvelées régulièrement et intégrées au fur et à mesure (comme pour le stockage). Evolution sur 10 ans Matériel L’intégration de nouvelles machines de calcul ou de stockage s’est faite de manière transparente. Nous sommes passés d’une capacité de stockage initiale de 18To (3 serveurs R515, disques de 3To) en 2011 à une capacité de 917To (8 serveurs hétérogènes). Le réseau est passé du 1Gb cuivre au 10Gb SFP+. Il n’y a pas eu de transfert de données/migration, pas de modification de l’architecture logique pour les utilisateurs. Le système de fichiers cephfs permet un accès direct aux données depuis chaque nœud de calcul. Globalement, les performances ont suivi les évolutions matérielles (augmentation du débit, augmentation des capacités de calcul). La résistance aux pannes a été mise à rude épreuve (panne électrique, disques ou erreurs humaines) et nous n’avons jamais eu de perte de données. Logiciel Les systèmes pour les serveurs et pour les postes utilisateur ont été migrés en 2013 de Ubuntu vers Debian. Nous y avons gagné en stabilité et en simplicité lors des mises à jour de version. La stratégie consiste à maintenir le parc informatique sous Debian "stable" et effectuer le passage à la version successive dans les mois qui suivent sa publication officielle. Le stockage centralisé est disponible pour tous les postes dans une arborescence commune, via un montage automatique sur les nœud de calculs (cephfs via systemd sur les serveurs, sshfs sur les postes clients). Les logiciels sont les mêmes sur les serveurs et les postes utilisateurs. L’accès distant au cluster de calcul se fait avec x2go via une clé publique ssh. Scientifique Les analyses de la plateforme ont évolué pour passer de la technique des gels électrophorèses 2D vers les analyses shotgun en spectrométrie de masse. Le traitement d’images 2D était majoritairement effectué avec des logiciels propriétaires sous Windows, sur des postes dédiés, ce qui limitait les capacités de traitement. Le passage progressif à des processus analytiques qui faisaient l'économie de l'étape d'électrophorèse a coincidé avec la révolution du Logiciel libre dans le domaine scientifique au milieu des années 2000. Nous avons alors pu effectuer la transition vers des logiciels libres. Cependant, les logiciels disponibles étaient principalement des librairies encore imparfaitement dotées des fonctionnalités requises. Nous avons alors entrepris le développement de nos logiciels sur la base des besoins scientifiques particuliers à notre plateformeLe logiciel MassChroQ est né ainsi, de nos besoins en protéomique quantitative. Note indépendance vis-à-vis des formats de données propriétaires des fabricants nous a permis de produire un logiciel évolutif et pérenne dès le départ, évitant l’effet « boîte noire ». Ainsi, notre offre logicielle a pu être adaptée au fur et à mesure aux nouvelles techniques, à des instruments significativement différents de génération en génération, absorbant ainsi les « chocs » technologiques : doublement des fréquences d’acquisition à chaque génération (3 ans), doublement du pouvoir résolutif (précision des mesures des masse). La dernière « rupture technologique » a été l’apparition du timsTOF Pro du fabricant Bruker. Cet appareil dispose d’une fréquence d’acquisition 10 fois supérieure à celle de la génération précédente ainsi que d’une nouvelle dimension de séparation des peptides (mobilité ionique). Fait unique depuis les débuts de la protéomique, Bruker nous a confié les spécifications techniques de son format de fichier de données. Cela nous a permis d’adapter MassChroQ pour pouvoir utiliser de manière native les données obtenues sur cet instrument. Notre savoir faire en développment C++ nous a ainsi permis d'obtenir des gains de performances remarquables par rapport aux logiciels commerciaux, ainsi que de meilleurs résultats scientifiques. Bilan Le passage au Logiciel libre pour tous les besoins informatiques de la plateforme PAPPSO a permis une maîtrise totale de ses outils, depuis la production des données brutes jusqu’à l’interprétation biologique. Les sommes importantes économisées en licences de logiciels propriétaires (20k€ par an) ont été transférées dans la maintenance des ressources de calcul et de stockage. Le savoir faire développé par PAPPSO dans l’analyse protéomique haut débit est reconnu au niveau international (129 articles citant MassChroQ depuis 2011, publication d’un article de référence en métaprotéomique [6]). Toutes les analyses sont complètement vérifiables et reproductibles, les logiciels étant tous librement téléchargeables, sous licence GPLv3, sans demande préalable. Bibliographie Rusconi F. Free Open Source Software for Protein and Peptide Mass Spectrometry- based Science. Curr Protein Pept Sci, 2 (22) 134-147, 2021 ; https://doi.org/10.2174/1389203722666210118160946 Langella O. , Valot B., Jacob D., Balliau T., Flores R., Hoogland C., Joets J., Zivy M.. (2013) Management and dissemination of MS proteomic data with PROTICdb: Example of a quantitative comparison between methods of protein extraction. Proteomics, 9 (13) 1457-66 Langella O, Rusconi F. mineXpert2: Full-Depth Visualization and Exploration of MSn Mass Spectrometry Data. J. Am. Soc. Mass Spectrom., 4 (32) 1138-114, mars 2021 ; https://doi.org/10.1021/jasms.0c00402 Langella O, Valot B, Balliau T, Blein-Nicolas M, Bonhomme L, Zivy M. X!TandemPipeline: A Tool to Manage Sequence Redundancy for Protein Inference and Phosphosite Identification. J. Proteome Res., 2 (16) 494-503, décembre 2016 ; https://doi.org/10.1021/acs.jproteome.6b00632 Valot B, Langella O, Nano E, Zivy M. MassChroQ: a versatile tool for mass spectrometry quantification. Proteomics, 17 (11) 3572-3577, juin 2011 ; https://doi.org/10.1002/pmic.201100120 Van Den Bossche T, Kunath BJ, Schallert K, Schäpe SS, Abraham PE, Armengaud J, Arntzen M, Bassignani A, Benndorf D, Fuchs S, Giannone RJ, Griffin TJ, Hagen LH, Halder R, Henry C, Hettich RL, Heyer R, Jagtap P, Jehmlich N, Jensen M, Juste C, Kleiner M, Langella O, Lehmann T, Leith E, May P, Mesuere B, Miotello G, Peters SL, Pible O, Queiros PT, Reichl U, Renard BY, Schiebenhoefer H, Sczyrba A, Tanca A, Trappe K, Trezzi JP, Uzzau S, Verschaffelt P, von Bergen M, Wilmes P, Wolf M, Martens L, Muth T. Critical Assessment of MetaProteome Investigation (CAMPI): a multi-laboratory comparison of established workflows. Nature Communiations, 1 (12) 7305, décembre 2021 ; https://doi.org/10.1038/s41467-021-27542-8