Notre dépot de travail pour la Conf JRES 2022 April + Pappso Moulon
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

157 lines
13 KiB

3 months ago
3 months ago
3 months ago
  1. # Fonctionnement d'une plateforme d'analyse protéomique en mode libre
  2. Présentation longue 30' + 10 minutes questions
  3. # Objectif
  4. présenter une démarche. Comment et pourquoi faire de utiliser des logiciels libres dans un contexte scientifique.
  5. # Plan
  6. Le logiciel libre --- de part sa nature même --- est un objet scientifique
  7. canonique en ce sens qu'il se décline sous trois formes inter-dépendantes: il
  8. constitue un outil pour la recherche scientifique, il est un produit de la
  9. recherche scientifique et enfin, il est un objet de recherche scientifique.
  10. Nous voulons montrer dans notre exposé comment la liberté logicielle a permis à
  11. notre plateforme, d'abord de bâtir une infrastructure informatique
  12. réseaux/serveurs robuste comme socle pour la mise en place ultérieure de nos
  13. activités de recherche scientifique et de développement logiciel.
  14. La plateforme PAPPSO (plateforme...) de spectrométrie de masse pour la biologie
  15. est destinée à fournir à ses usagers scientifiques des services complémentaires:
  16. en premier lieu, la préparation de l'échantillon biologique, en deuxième lieu,
  17. son analyse par spectrométrie de masse et enfin la fouille des données
  18. expérimentales obtenues afin de fournir aux usagers des données d'intérêt
  19. biologique immédiatement exploitables. La mise en œuvre des ces trois services a
  20. requis la mise en place d'une infrastructure informatique permettant un traçage
  21. continu de chaque étape avec stockage des paramètres et des résultats à chaque
  22. instant.
  23. Infrastructure
  24. --------------
  25. L'infrastructure informatique dont le socle est un réseau interne au laboratoire
  26. est constituée des élements suivants:
  27. .
  28. .
  29. .
  30. Dans ce contexte, l'emploi exclusif de logiciels libres garantit ceci, cela et
  31. encore autre chose. Ainsi, nous limitons la dépendance vis-à-vis d'éditeurs de
  32. logiciels dont les produits ont cet inconvénient et cet autre inconvénient
  33. encore. Le succès de notre démarche est lié à ceci et cela et nous permet de
  34. faire la suite.
  35. Logiciels métier
  36. ----------------
  37. - Gestion documentaire (sourcesup, git)
  38. - Interfaçage instruments (proteowizard, pappsomspp, expérience Bruker)
  39. - Science à proprement parler (visualisation/fouille des données, explorations
  40. statistiques, production des résultats, mises en oeuvre par notre suite
  41. logicielle)
  42. Bilans
  43. ------
  44. Je pense que c'est ici qu'il faut faire la morale en montrant que la morale
  45. colle bien avec efficacité technique et production scientifique
  46. Ainsi,
  47. 1)
  48. l'enregistrement des caractéristiques détaillées de chacune des étapes, 2) le
  49. stockage des données et leur transfert sur les postes de travail des différents
  50. intervenants, 3) le traitement des données (fouille des données et analyses
  51. statistiques), 4) le stockage de toutes les données produites dans un dépôt
  52. accessible aux usagers.
  53. 1) Chaque étape du processus analytique est minutieusement documentée et --- dès
  54. que possible --- standardisée de manière à nous approcher autant que possible
  55. d'un objectif désormais central dans la démarche scientifique: la recherche
  56. reproductible (git / sourcesup);
  57. 2) Les données de spectrométrie de masse sont massives et requièrent pour leur
  58. stockage et leur traitement une infrastructure informatique robuste (ceph,
  59. serveurs de calcul);
  60. 3) Le traitement des données impose une utilisation massive de logiciels conçus
  61. pour leur majorité au sein de PAPPSO. Le développement et la maintenance de
  62. toute une gamme de logiciels libres pour la spectrométrie de masse est l'une des
  63. caractéristiques saillantes qui font l'originalité de PAPPSO en France.
  64. 4) Les données brutes et les données issues de nos analyses sont stockées dans
  65. un dépôt qui permet leur sauvegarde au long cours et leur recherche par les
  66. usagers.
  67. * introduire le logiciel libre, mariage science / ouverture du code (recherche reproductible), public money public code, obligation éthique en science, pérennité, investissement rentable
  68. * contexte de la plateforme : fabricants de spectromètres, éditeurs de logiciels scientifique. Adaptation permanente, incompatibilité des logiciels entre eux, perte d'expertise lors des changements de versions ou d'éditeur, analyse entre projets ou sur la durée difficile, coût des licences, maintenance, postes dédiés, nombre d'utilisateur restreint, nombre de CPU restreint.
  69. * Expérience PAPPSO en 15 ans d'engagement FOSS : réinvestissement des gains en licence vers l'infrastructure, maitrise du déploiement, maitrise du SI matériel et logiciel, développements à façon, rationalisation des flux de données (production, analyse, archivage), réutilisation des données, compatibilité. Adaptation permanente à l'émergence de nouvelles techniques : comment PAPPSO a pu grâce aux logiciels libres, s'adapter et monter en puissance. gel2D, analyses shotgun, haut débit, explosion des données, métaprotéomique, mobilité ionique...
  70. * Comment : compétences en admin sys/réseau, développement, scientifique, expertise technique dans la même équipe. Développement agile et ouvert.
  71. * Conclusion : le FOSS est un atout pour la recherche. Un engagement réel est nécessaire pour garder la maitrise des SI au niveau des labos et au niveau national (éviter les solutions propriétaires pour la messagerie, visio...). L'ouverture du code est nécessaire pour pouvoir s'adapter et innover.
  72. Réu BBB : Olivier, Eda, Filipo
  73. Notes en vrac :
  74. Fortes recommandation d'utiliser des licences libres + blabla
  75. La circulaire Ayrault
  76. Public Money Public Code (on leur fait un peu la moral)
  77. Puis leur vanter les bienfaits de tout ça, efficacité etc.
  78. Retrouver les trois pilliers : Informatique scientifiaue + informatique de support + infrastructure ?
  79. Casser le mode services de développement externes : agilité en interne, on est des scientifiques, il n'y a que nous.
  80. Puis parler de MassChroQ et de notre expérience (illustrer tout ça).
  81. Les licences permissives : recommandées par l'INRAE, mais pas forcément. La GPL, le copyleft est là pour protéger, les licences permissives peuvent être des fois pertinentes mais pas tjs.
  82. Filipo : Leur montrer notre infra, basée sur du libre. Le terreau de base, puis on passe au plus haut niveau dans la science. Leur montrer toute la pile de l'infra qu'on a en libre, en mode ils pourraient aussi.
  83. Présenter PAPPSO, cadre, + clusters de calcul, cluster de stockage, comment on a monté tout ça.
  84. Depuis 2005, PAPPSO, Plateforme de Protéomique Paris Sud Ouest a fait le choix du logiciel libre. Un choix raisonné pour résoudre les problèmes de pérennité, de diversité des formats, de dépendance vis à vis des éditeurs de logiciels scientifiques. Le projet PROTICdb (Ferry-Dumazet et al. 2005, Langella et al. 2007) a permis dans un premier temps d'assurer la continuité des projets scientifiques en permettant un stockage structuré des données provenant de différentes sources, assurant la réutilisation des données et la compatibilité entre les différents logiciels utilisés sur la plateforme, la publication et la mise en relation entre projets. Les logiciels utilisés à l'époque pour la production de données étaient uniquement propriétaires, indispensable pour l'exploitation d'image de gel 2D. Cela engendrait des coûts importants en licences, en matériel (pc dédié), en maintenance (mises à jour), et des limites dans l'efficacité scientifique dû au manque d'intégration des logiciels entre eux, transfert de données, bugs. Nous avons donc lancé de développement de Beads (Langella, Zivy 2010) pour exploiter les images de gels avec des algorithmes originaux développés sur la plateforme. En parallèle, nous avons remplacé une étape clé de nos analyses, l'identification, jusqu'ici réalisée par un logiciel propriétaire, par X!Tandem (Craig, Beavis 2004), logiciel libre en ligne de commande. Ces briques logiciels, fonctionnant sous Linux nous ont permis de commencer à rationaliser la gestion de notre matériel. Nous avons fait l'acquisition d'un serveur sous Linux et commencé la centralisation des données sur serveur NAS. l'aspect rugueux de ces logiciels en ligne de commande a été compensé par leur efficacité. La qualité des résultats obtenus a été améliorée, et l'intégration des outils entre eux sur un même serveur a apporté d'énormes gains en temps de traitement. L'accès au code source nous a permi des adaptations impossible à réaliser autrement, ainsi que le packaging et le
  85. déploiement automatique. En quelques années, les PC de bureautique utilisés par les membres de PAPPSO ont migrés de Windows vers Ubuntu puis Debian. La technologie des spectromètres de masse est en perpétuelle évolution. La quantification auparavant uniquement possible par exploitation des images de gels devenait possible à partir des données de masse directement. En 2008, l'offre commerciale ou libre dans le domaine n'était pas encore disponible. Disposant des compétences scientifiques nécessaires, nous avons lancé le développement de notre propre logiciel, MassChroQ (Valot et al.2011).
  86. PAPPSO dispose depuis cette époque d'un système de traitement des données en protéomique entièrement libre. La partie acquisition des données de spectrométrie de masse restant la propriété exclusive des fabricants d'instruments, l'utilisation de Windows sur les postes d'acquisition reste nécessaire. Les données sont transformées après l'acquisition aux formats ouverts standards (formats XML défini par la Proteomic Standard Initiative).
  87. La maitrise complète des outils a permi l'adaptation rapide de la plateforme aux évolutions techniques et de nouveaux développements en bioinformatique.
  88. A chaque génération d'instruments, les avancées techniques produisent, comme en génomique, une explosion des besoins en stockage et en capacité de calcul. Face à ce défi, la course à l'équipement devenait insoutenable. En 2010, nous avons lancé le projet SIROCCO (Seamless Integration of Ressources for Omics Critical Computational Operations). Le projet consiste à intégrer stockage, capacité de calcul, poste de travail, archivage dans un ensemble cohérent. Les principaux logiciels utilisés sont : Debian, x2go, HTCondor, Ceph, git, ansible. En 2011, notre système de stockage est passé d'un NAS traditionnel à un cluster ceph, directement accessible en cephfs par les noeuds de notre cluster de calcul HTCondor.
  89. Cette opération nous permet depuis lors une adaptation continuelle de nos équipements, sans migration de technologie.
  90. Grâce à ces développements, PAPPSO s'est naturellement engagée dans la protéomique "haut débit" et la métaprotéomique, de grands effectifs (plus de 1000 échantillons dans l'ANR Amaizing) et de grande complexité en métaprotéomique (ANR ProteoCardis). Pour permettre l'analyse de ces grands jeux de données, nous avons développé des algoritmes et des interfaces graphiques dédiées. De nombreux outils ont été développés en interne. X!TandemPipeline (Langella et al. 2017) permet l'inférence de protéines, la visualisation et la filtration automatique des données de spectrométrie de masse. MCQR, module de traitement statistiques R pour la protéomique est en cours de publication. Nous rassemblons nos développements dans une bibliothèque C++ commune (PAPPSOms++) qui permet une adaptation plus rapide de tous nos logiciels aux nouvelles technologies. En 2018, F. Rusconi, chercheur CNRS nous a rejoint et nous avons ajouté à notre base de code des techniques de traitement de spectres permettant une exploitation plus rapide et efficace des données brutes avec MineXpert2 (Langella, Rusconi 2021).
  91. Aujourd'hui, les évolutions continuent, et nous développons maintenant notre capacité à exploiter directement les données de spectrométrie de masse. En collaboration étroite avec l'entreprise Bruker, nous pouvons maintenant lire directement les données d'acquisition de ses instruments. Cela nous permet de maitriser la transformation des données brutes et de l'adapter à nos outils. La vitesse d'exécution, pour une qualité équivalente des résultats, est à ce stade 3 fois plus rapide que les solutions commerciales.
  92. Finir sur : l'agilité est chez nous, le savoir faire, la force scientifique est chez nous, on est agiles par design en quel sorte. Les entreprises veulent évidemment profiter de notre force et ok, mais ce n'est pas à elles de nosu imposer leurs licences, qui vont enfermer le code et faire en sorte que la science ne sera pas propagée, et on payera après des licences propriétaires de logiciels faits chez nos collègues.
  93. Dire qu'il y a des règles, et qu'il y en a qui les jouent pas, et qu'on les connaît, nommer les patterns : on est en code libre,
  94. http://www.profiproteomics.fr/
  95. => développement agile en circuit court
  96. * foisonnement d'idées dans les labos
  97. * partage des connaissances
  98. * maitrise technique
  99. * ouverture des outils
  100. * découverte de nouveaux usages sans restriction
  101. enfer des licences :
  102. * restriction matérielles
  103. * contraintes logicielles
  104. * intégration impossible