diff --git a/article_jres_olivier_amoi.fodt b/article_jres_olivier_amoi.fodt index 30103f1..65d2d8c 100644 --- a/article_jres_olivier_amoi.fodt +++ b/article_jres_olivier_amoi.fodt @@ -1,10 +1,10 @@ - 2021-02-15T09:17:10.478673722PT3H10M36S47LibreOffice/7.0.4.2$Linux_X86_64 LibreOffice_project/00$Build-2Modèle et mini-guideModèle Jres 20212022-01-06T13:19:51.607419200Olivier Langella + 2021-02-15T09:17:10.478673722PT3H13M12S48LibreOffice/7.0.4.2$Linux_X86_64 LibreOffice_project/00$Build-2Modèle et mini-guideModèle Jres 20212022-01-06T13:22:28.443153892Olivier Langella - 119606 + 69460 0 36826 14619 @@ -13,12 +13,12 @@ view2 - 13718 - 127108 + 9913 + 78537 0 - 119606 + 69460 36825 - 134223 + 84078 0 0 false @@ -1631,7 +1631,7 @@ - + @@ -1938,22 +1938,22 @@ Les besoins en stockage de la plateforme évoluent constamment en fonction des progrès techniques. Chaque nouvelle génération d'instrument apporte des améliorations, en particulier sur la précision de mesure de masse, qui provoquent une augmentation significative du volume des données générées. Le système de stockage des données de spectrométrie de masse doit permettre une adaptation en continu de la volumétrie d'espace disque disponible ainsi que les meilleures performances en lecture et écriture. Les solutions classiques de type NAS ont été écartées pour éviter la dépendance matérielle et les problèmes liés au renouvellement des équipements. Dès 2011, nous avons été parmi les premiers à faire confiance à une solution nouvelle de stockage distribué: Ceph. La principale caractéristique de ce système de stockage est de ne requérir que des serveurs standard. La flexibilité et l'adaptabilité de ce système à des besoins perpétuellement en évolution en ont fait la solution la plus robuste que nous connaissions. - - - Figure 1Evolution des besoins de stockage de la plateforme en To/an, comparée à l’évolution des disques durs + + + Figure 1Evolution des besoins de stockage de la plateforme en To/an, comparée à l’évolution des disques durs Calcul La plateforme PAPPSO est spécialisée dans les traitements en protéomique haut débit (nombreux échantillons à traiter dans les plus brefs délais). Pour assurer la disponibilité de nos moyens de calcul à l’ensemble des utilisateurs, nous utilisons le gestionnaire de processus HTCondor. Les besoins en calcul évoluent eux aussi en fonction des instruments utilisés. Avec l’évolution des techniques, de nouvelles possibilités sont apparues dans le traitement de données en protéomique exigeant elles aussi des capacités de calcul supplémentaires. Les machines dédiées au calcul doivent être ainsi renouvelées régulièrement et intégrées au fur et à mesure (comme pour le stockage). - Evolution sur 10 ans + Evolution sur 10 ans Matériel - L’intégration de nouvelles machines de calcul ou de stockage s’est faite de manière transparente. Nous sommes passés d’une capacité de stockage initiale de 18To (3 serveurs R515, disques de 3To) en 2011 à une capacité de 917To (8 serveurs hétérogènes). Le réseau est passé du 1Gb cuivre au 10Gb SFP+. Il n’y a pas eu de transfert de données/migration, pas de modification de l’architecture logique pour les utilisateurs. Le système de fichiers cephfs permet un accès direct aux données depuis chaque nœud de calcul. Globalement, les performances ont suivi les évolutions matérielles (augmentation du débit, augmentation des capacités de calcul). La résistance aux pannes a été mise à rude épreuve (panne électrique, disques ou erreurs humaines) et nous n’avons jamais eu de perte de données. + L’intégration de nouvelles machines de calcul ou de stockage s’est faite de manière transparente. Nous sommes passés d’une capacité de stockage initiale de 18To (3 serveurs R515, disques de 3To) en 2011 à une capacité de 917To (8 serveurs hétérogènes). Le réseau est passé du 1Gb cuivre au 10Gb SFP+. Il n’y a pas eu de transfert de données/migration, pas de modification de l’architecture logique pour les utilisateurs. Le système de fichiers cephfs permet un accès direct aux données depuis chaque nœud de calcul. Globalement, les performances ont suivi les évolutions matérielles (augmentation du débit, augmentation des capacités de calcul). La résistance aux pannes a été mise à rude épreuve (panne électrique, disques ou erreurs humaines) et nous n’avons jamais eu de perte de données. Logiciel Les systèmes pour les serveurs et pour les postes utilisateur ont été migrés en 2013 de Ubuntu vers Debian. Nous y avons gagné en stabilité et en simplicité lors des mises à jour de version. La stratégie consiste à maintenir le parc informatique sous Debian "stable" et effectuer le passage à la version successive dans les mois qui suivent sa publication officielle. Le stockage centralisé est disponible pour tous les postes dans une arborescence commune, via un montage automatique sur les nœud de calculs (cephfs via systemd sur les serveurs, sshfs sur les postes clients). Les logiciels sont les mêmes sur les serveurs et les postes utilisateurs. L’accès distant au cluster de calcul se fait avec x2go via une clé publique ssh. Scientifique Les analyses de la plateforme ont évolué pour passer de la technique des gels électrophorèses 2D vers les analyses shotgun en spectrométrie de masse. Le traitement d’images 2D était majoritairement effectué avec des logiciels propriétaires sous Windows, sur des postes dédiés, ce qui limitait les capacités de traitement. Le passage progressif à des processus analytiques qui faisaient l'économie de l'étape d'électrophorèse a coincidé avec la révolution du Logiciel libre dans le domaine scientifique au milieu des années 2000. Nous avons alors pu effectuer la transition vers des logiciels libres. Cependant, les logiciels disponibles étaient principalement des librairies encore imparfaitement dotées des fonctionnalités requises. Nous avons alors entrepris le développement de nos logiciels sur la base des besoins scientifiques particuliers à notre plateformeLe logiciel MassChroQ est né ainsi, de nos besoins en protéomique quantitative. Note indépendance vis-à-vis des formats de données propriétaires des fabricants nous a permis de produire un logiciel évolutif et pérenne dès le départ, évitant l’effet « boîte noire ». Ainsi, notre offre logicielle a pu être adaptée au fur et à mesure aux nouvelles techniques, à des instruments significativement différents de génération en génération, absorbant ainsi les « chocs » technologiques : doublement des fréquences d’acquisition à chaque génération (3 ans), doublement du pouvoir résolutif (précision des mesures des masse). - La dernière « rupture technologique » a été l’apparition du timsTOF Pro du fabricant Bruker. Cet appareil dispose d’une fréquence d’acquisition 10 fois supérieure à celle de la génération précédente ainsi que d’une nouvelle dimension de séparation des peptides (mobilité ionique). Fait unique depuis les débuts de la protéomique, Bruker nous a confié les spécifications techniques de son format de fichier de données. Cela nous a permis d’adapter MassChroQ pour pouvoir utiliser de manière native les données obtenues sur cet instrument. Notre savoir faire en développment C++ nous a ainsi permis d'obtenir des gains de performances remarquables par rapport aux logiciels commerciaux, ainsi que de meilleurs résultats scientifiques. + La dernière « rupture technologique » a été l’apparition du timsTOF Pro du fabricant Bruker. Cet appareil dispose d’une fréquence d’acquisition 10 fois supérieure à celle de la génération précédente ainsi que d’une nouvelle dimension de séparation des peptides (mobilité ionique). Fait unique depuis les débuts de la protéomique, Bruker nous a confié les spécifications techniques de son format de fichier de données. Cela nous a permis d’adapter MassChroQ pour pouvoir utiliser de manière native les données obtenues sur cet instrument. Notre savoir faire en développment C++ nous a ainsi permis d'obtenir des gains de performances remarquables par rapport aux logiciels commerciaux, ainsi que de meilleurs résultats scientifiques. - Bilan + Bilan Le passage au Logiciel libre pour tous les besoins informatiques de la plateforme PAPPSO a permis une maîtrise totale de ses outils, depuis la production des données brutes jusqu’à l’interprétation biologique. Les sommes importantes économisées en licences de logiciels propriétaires (20k€ par an) ont été transférées dans la maintenance des ressources de calcul et de stockage. Le savoir faire développé par PAPPSO dans l’analyse protéomique haut débit est reconnu au niveau international (129 articles citant MassChroQ depuis 2011, publication d’un article de référence en métaprotéomique [6]). Toutes les analyses sont complètement vérifiables et reproductibles, les logiciels étant tous librement téléchargeables, sous licence GPLv3, sans demande préalable.