Ajouter 'resume.md'

This commit is contained in:
Olivier Langella 2021-04-30 22:02:38 +02:00
parent ad95d07228
commit b9d19ec599

54
resume.md Normal file
View File

@ -0,0 +1,54 @@
Fonctionnement d'une plateforme d'analyse protéomique en mode libre
Présentation longue 30' + 10 minutes questions
Réu BBB : Olivier, Eda, Filipo
Notes en vrac :
Fortes recommandation d'utiliser des licences libres + blabla
La circulaire Ayrault
Public Money Public Code (on leur fait un peu la moral)
Puis leur vanter les bienfaits de tout ça, efficacité etc.
Retrouver les trois pilliers : Informatique scientifiaue + informatique de support + infrastructure ?
Casser le mode services de développement externes : agilité en interne, on est des scientifiques, il n'y a que nous.
Puis parler de MassChroQ et de notre expérience (illustrer tout ça).
Les licences permissives : recommandées par l'INRAE, mais pas forcément. La GPL, le copyleft est là pour protéger, les licences permissives peuvent être des fois pertinentes mais pas tjs.
Filipo : Leur montrer notre infra, basée sur du libre. Le terreau de base, puis on passe au plus haut niveau dans la science. Leur montrer toute la pile de l'infra qu'on a en libre, en mode ils pourraient aussi.
Présenter PAPPSO, cadre, + clusters de calcul, cluster de stockage, comment on a monté tout ça.
Depuis 2005, PAPPSO, Plateforme de Protéomique Paris Sud Ouest a fait le choix du logiciel libre. Un choix raisonné pour résoudre les problèmes de pérennité, de diversité des formats, de dépendance vis à vis des éditeurs de logiciels scientifiques. Le projet PROTICdb (Ferry-Dumazet et al. 2005, Langella et al. 2007) a permis dans un premier temps d'assurer la continuité des projets scientifiques en permettant un stockage structuré des données provenant de différentes sources, assurant la réutilisation des données et la compatibilité entre les différents logiciels utilisés sur la plateforme, la publication et la mise en relation entre projets. Les logiciels utilisés à l'époque pour la production de données étaient uniquement propriétaires, indispensable pour l'exploitation d'image de gel 2D. Cela engendrait des coûts importants en licences, en matériel (pc dédié), en maintenance (mises à jour), et des limites dans l'efficacité scientifique dû au manque d'intégration des logiciels entre eux, transfert de données, bugs. Nous avons donc lancé de développement de Beads (Langella, Zivy 2010) pour exploiter les images de gels avec des algorithmes originaux développés sur la plateforme. En parallèle, nous avons remplacé une étape clé de nos analyses, l'identification, jusqu'ici réalisée par un logiciel propriétaire, par X!Tandem (Craig, Beavis 2004), logiciel libre en ligne de commande. Ces briques logiciels, fonctionnant sous Linux nous ont permis de commencer à rationaliser la gestion de notre matériel. Nous avons fait l'acquisition d'un serveur sous Linux et commencé la centralisation des données sur serveur NAS. l'aspect rugueux de ces logiciels en ligne de commande a été compensé par leur efficacité. La qualité des résultats obtenus a été améliorée, et l'intégration des outils entre eux sur un même serveur a apporté d'énormes gains en temps de traitement. L'accès au code source nous a permi des adaptations impossible à réaliser autrement, ainsi que le packaging et le
déploiement automatique. En quelques années, les PC de bureautique utilisés par les membres de PAPPSO ont migrés de Windows vers Ubuntu puis Debian. La technologie des spectromètres de masse est en perpétuelle évolution. La quantification auparavant uniquement possible par exploitation des images de gels devenait possible à partir des données de masse directement. En 2008, l'offre commerciale ou libre dans le domaine n'était pas encore disponible. Disposant des compétences scientifiques nécessaires, nous avons lancé le développement de notre propre logiciel, MassChroQ (Valot et al.2011).
PAPPSO dispose depuis cette époque d'un système de traitement des données en protéomique entièrement libre. La partie acquisition des données de spectrométrie de masse restant la propriété exclusive des fabricants d'instruments, l'utilisation de Windows sur les postes d'acquisition reste nécessaire. Les données sont transformées après l'acquisition aux formats ouverts standards (formats XML défini par la Proteomic Standard Initiative).
La maitrise complète des outils a permi l'adaptation rapide de la plateforme aux évolutions techniques et de nouveaux développements en bioinformatique.
A chaque génération d'instruments, les avancées techniques produisent, comme en génomique, une explosion des besoins en stockage et en capacité de calcul. Face à ce défi, la course à l'équipement devenait insoutenable. En 2010, nous avons lancé le projet SIROCCO (Seamless Integration of Ressources for Omics Critical Computational Operations). Le projet consiste à intégrer stockage, capacité de calcul, poste de travail, archivage dans un ensemble cohérent. Les principaux logiciels utilisés sont : Debian, x2go, HTCondor, Ceph, git, ansible. En 2011, notre système de stockage est passé d'un NAS traditionnel à un cluster ceph, directement accessible en cephfs par les noeuds de notre cluster de calcul HTCondor.
Cette opération nous permet depuis lors une adaptation continuelle de nos équipements, sans migration de technologie.
Grâce à ces développements, PAPPSO s'est naturellement engagée dans la protéomique "haut débit" et la métaprotéomique, de grands effectifs (plus de 1000 échantillons dans l'ANR Amaizing) et de grande complexité en métaprotéomique (ANR ProteoCardis). Pour permettre l'analyse de ces grands jeux de données, nous avons développé des algoritmes et des interfaces graphiques dédiées. De nombreux outils ont été développés en interne. X!TandemPipeline (Langella et al. 2017) permet l'inférence de protéines, la visualisation et la filtration automatique des données de spectrométrie de masse. MCQR, module de traitement statistiques R pour la protéomique est en cours de publication. Nous rassemblons nos développements dans une bibliothèque C++ commune (PAPPSOms++) qui permet une adaptation plus rapide de tous nos logiciels aux nouvelles technologies. En 2018, F. Rusconi, chercheur CNRS nous a rejoint et nous avons ajouté à notre base de code des techniques de traitement de spectres permettant une exploitation plus rapide et efficace des données brutes avec MineXpert2 (Langella, Rusconi 2021).
Aujourd'hui, les évolutions continuent, et nous développons maintenant notre capacité à exploiter directement les données de spectrométrie de masse. En collaboration étroite avec l'entreprise Bruker, nous pouvons maintenant lire directement les données d'acquisition de ses instruments. Cela nous permet de maitriser la transformation des données brutes et de l'adapter à nos outils. La vitesse d'exécution, pour une qualité équivalente des résultats, est à ce stade 3 fois plus rapide que les solutions commerciales.
Finir sur : l'agilité est chez nous, le savoir faire, la force scientifique est chez nous, on est agiles par design en quel sorte. Les entreprises veulent évidemment profiter de notre force et ok, mais ce n'est pas à elles de nosu imposer leurs licences, qui vont enfermer le code et faire en sorte que la science ne sera pas propagée, et on payera après des licences propriétaires de logiciels faits chez nos collègues.
Dire qu'il y a des règles, et qu'il y en a qui les jouent pas, et qu'on les connaît, nommer les patterns : on est en code libre,
http://www.profiproteomics.fr/
=> développement agile en circuit court
* foisonnement d'idées dans les labos
* partage des connaissances
* maitrise technique
* ouverture des outils
* découverte de nouveaux usages sans restriction
enfer des licences :
* restriction matérielles
* contraintes logicielles
* intégration impossible