SCIENCE DES DONNEES, GESTION DE DONNEES ET SOLUTIONS NUMERIQUES
Apporter le continuum de technologies numériques et de science des données essentiel à l’atteinte des objectifs d’analyse avancée de données de votre projet.
La masse de données générées par les expériences à haut ou moyen débit, le NGS, les analyses multi-omiques et l’imagerie a fait entrer les sciences de la vie dans l’ère du big data. Elles ont également contribué à l’émergence de la science des données, qui fait un usage intensif de l’apprentissage automatique (ML, Machine Learning) et de l’intelligence artificielle (IA), pour surmonter la complexité de l’organisation des systèmes biologiques.
Chaque jour, de nouvelles architectures d’apprentissage automatique et de réseaux neuronaux artificiels (ANN) sont développés pour répondre à des besoins non satisfaits et résoudre des problèmes complexes. Notre équipe de data scientists hautement qualifiés peut suggérer l’architecture optimale pour résoudre les problèmes ad hoc entre les modèles disponibles de pointe et les algorithmes conçus de novo.
Le principal défi pour exploiter avec succès ces avancées consiste à intégrer et analyser de manière transversale l’ensemble de ces données, afin de les traduire en résultats biologiques, puis de les affiner en connaissances exploitables par des équipes interdisciplinaires.
L’analyse et l’exploitation des données associées à cette approche intégrative requièrent un flux et une gestion appropriés des informations d’entrée. Pour cette raison, chez BIOASTER, les données sont gérées selon les principes FAIR et en utilisant l’architecture idéale pour répondre aux besoins des parties prenantes.
Science des données
REUSSIR L’ANALYSE AVANCÉE ET L’INTÉGRATION DE DONNÉES PAR L’EXPLOITATION DES DERNIÈRES TECHNOLOGIES DE BIOSTATISTIQUES ET D’IA/ML
L’analyse des données biologiques reste une tâche complexe, compte tenu de l’accroissement du volume et de la diversité de ces données à coupler avec le haut niveau d’intégration requis pour adresser une très grande variété de questions biologiques et disparité d’espèces animales ou de micro-organismes investigués.
Nous avons constitué notre « boite à outils » pour répondre au large éventail de données et de questions biologiques attendues d’un projet multiparamétrique.
Nous générons la plupart de ces résultats grâce à la combinaison d’approches statistiques, mathématiques et d’apprentissage automatique (ML). Notre équipe de chargés de recherche en biostatistique et intelligence artificielle a démontré son expertise dans l’évaluation comparative et l’application de ces approches dans l’analyse intégrative supervisée et non supervisée.
La liste suivante décrit la plupart de nos capacités, par ordre de complexité :
- Nous construisons des modèles in silico pour accompagner la prise de décision,,
- Nous construisons des modèles prédictifs et explicatifs pour caractériser des signatures moléculaires (identifier des biomarqueurs) et révéler des mécanismes d’action (MoA) complétés d’analyses fonctionnelles, e.g. analyse différentielle et enrichissement ou inférence de réseaux biologiques,
- Nous vérifions ou augmentons la pertinence biologique des résultats obtenus en les croisant avec les bases de données de référence existantes,
- Nous fournissons un haut niveau d’intégration de données multi-omiques, de cytométrie ou de données non structurées (par exemple, l’imagerie) avec les résultats d’études (pré)cliniques ou autres (RWD),
- Nous réalisons des analyses multi-échelles et des corrélations d’événements en incorporant des dimensions spatiales (par exemple, locale vs. systémique) ou temporelles (études longitudinales),
Pour être en mesure de mieux intégrer des données non structurées telles que des images, de réaliser des analyses intensives ou pour répondre à de nouveaux besoins en matière d’aide à la prise de décision (i.e imitation accrue de certains comportements humains), nous renforçons nos capacités d’analyse en utilisant les approches les plus récentes d’apprentissage profond et en tirant parti des algorithmes de réseaux de neurones; par exemple, CNN appliqué à la vision par ordinateur exploitant les capacités offertes par la plateforme d’IA TensorFlow.
- Nous appliquons les technologies d’IA/ML aux approches globales de traitement de données
- La toute première action au cœur de notre approche intégrée consiste à vous mettre en relation avec nos experts afin d’identifier les approches technologiques les plus à même d’adresser vos questions biologiques. Ces mêmes bioinformaticiens, data scientists et experts biologiques seront présents à chaque étape du projet et feront de ces échanges réitérés une boucle vertueuse propice au succès de l’interprétation des résultats.
- En plus de disposer d’une boîte à outils d’approches bioinformatiques, biostatistiques, de ML et IA déjà éprouvées et consolidées en pipelines, nous pouvons identifier, évaluer, sélectionner, assembler ou concevoir des algorithmes innovants les plus appropriés à traiter l’originalité de vos données ou questions biologiques.
GESTION DE DONNÉES
APPLIQUER LES PRINCIPES FONDAMENTAUX DE LA GESTION DE DONNÉES COMME CLÉ DE LA RÉUSSITE D’UN PROJET
L’analyse robuste et précise de la donnée est conditionnée par l’atteinte d’un niveau adéquat en qualité et performance de gestion des données et des métadonnées, aspect encore insuffisamment considéré dans les sciences de la vie.
Tout au long de leur cycle de vie, la traçabilité, la sécurité et l’intégrité des données sont soutenues par des solutions numériques appropriées.
Le portefeuille de solutions que nous pouvons déployer dans le cadre de votre projet comprend :
- des plateformes génériques type entrepôts de données ou simplifiant le partage des données dans un contexte big data,
- des solutions ad-hoc gérant les caractéristiques propres à chaque donnée, par exemple, LIMS (données de laboratoire), eCRF (données cliniques), LabKey (multi-études centralisées) ou tranSMART (tests d’hypothèses en environnement clinique).
Nous vous garantissons un haut niveau de gouvernance des données ainsi que la conformité et l’application des normes et standards requis grâce :
- au lien matérialisé par notre data steward entre un comité interne représentant chaque métier et les data managers,
- à l’application d’ontologies propres à la spécificité et au cadre d’utilisation des données/métadonnées,
- à l’application des principes FAIR (Findable, Accessible, Interoperable, Reusable).
- Nous prenons en charge l’intégration des données, la centralisation des données/métadonnées et l’interopérabilité des plateformes.
- Le cadre de gestion de la donnée est conforme aux obligations réglementaires, par exemple le RGPD(études cliniques), et peut être complété par un plan de gestion des données (PGD).
- Les données recueillies sont maintenues en condition pour permettre toute valorisation ultérieure et telle que assujettie à l’application de droits, notamment de propriétés intellectuelles: publications, transferts, réutilisations, conservation à long terme (archivage).
- Nous avons fait preuve de telles capacités par la contribution à des projets complexes et multipartenaires tels que :
> Horizon Europe, IHI, H2020, IMI,…
> des projets de plusieurs millions d’euros (par exemple, COVID-AuRA Translate) où BIOASTER est en charge de la délégation et la centralisation des besoins en matière de gestion de données massives et de calcul intensif.
SOLUTIONS NUMÉRIQUES SCIENTIFIQUES
ETENDRE L’APPLICATION DES TECHNOLOGIES du NUMERIQUE EN R&D POUR RENFORCER L’EXPÉRIENCE UTILISATEUR
Les résultats originaires des pipelines analytiques bioinformatiques et statistiques doivent être produits dans l’optique d’être systématiquement affinés et traduits en résultats finaux par des experts en biologie. Car elles offusquent la complexité des niveaux d’intégration ou d’interopérabilité des systèmes, les solutions numériques ouvrent sur des perspectives et expériences utilisateur (UX) stimulantes, notamment grâce à des outils avancés de visualisation dynamique, facilitant ainsi l’interprétation biologique.
Ces platesformes réduisent la complexité des données, facilitent la modélisation de concepts complexes, offrent une représentation des connaissances adaptée au contexte de chaque utilisateur et proposent des interfaces orientées métier. Cela permet à l’utilisateur final (un scientifique, un clinicien ou un patient) qui n’est pas familier avec la bioinformatique, les statistiques ou les technologies numériques, d’interagir pleinement avec les données.
En fonction de vos besoins, nous pouvons concevoir ou mettre à disposition une large gamme d’applications :
- plateformes d’aide à la décision ; par exemple, dans un contexte clinique, à l’aide de logiciels compagnons,
- génération, test et/ou validation d’hypothèses ; par exemple, dans un contexte clinique, en utilisant tranSMART,
- “DataMining4DataMeaning” : extraire et exploiter des données originales pour élaborer et évaluer des modèles prédictifs,
- agrégation de connaissances, soutenue par des outils d’interrogation complexes,
- indexation et intégration de (méta)données pour faciliter la gestion avancée de données longitudinales, (pré-)cliniques et multi-omiques; par exemple, en utilisant LabKey.
Nous suggérons l’approche technologique la plus appropriée pour votre projet, à travers :
- la personnalisation de solutions numériques prêtes à l’emploi,
- l’utilisation d’applications Web, de Rshiny ou de notebooks,
- la conception, le développement et le déploiement d’applications spécifiques en instanciant les méthodes, bonnes pratiques (DevOps, intégration continue, etc.) et outils au cœur de notre plateforme d’ingénierie logicielle.
- Nous fournissons une solution personnalisée 100% orientée utilisateur.
Ensemble, nous analysons vos besoins et préparons une maquette afin de concevoir et déployer une plateforme robuste, incluant la vérification de l’approbation des utilisateurs des fonctionnalités implémentées ainsi que la mise en service finale.
- Nous pouvons gérer toutes les étapes du développement, des phases de prototypage jusqu’au déploiement du produit.
- Un large éventail d’applications directes et indirectes :
> ad-hoc,
> « pied du lit » ; par exemple, pour le diagnostic,
> miniaturisation des dispositifs,
> mimétisme.
- WUn large éventail de gains directs et indirects :
> réduction des coûts,
> réduction du délai d’obtention des résultats,
> haut/moyen débit et changement d’échelle.
CLOUD COMPUTING & CONFORMITÉS
UNE INFRASTRUCTURE CLOUD HYBRIDE ROBUSTE POUR RELEVER LES DÉFIS DE BIO-IT DANS UN ENVIRONNEMENT EXIGEANT
Les défis liés au big data, à l’IA/ML et à la biologie des systèmes, lorsqu’ils prennent la forme de besoins en stockage, transfert de données et calcul massifs, doivent être relevés par l’utilisation des dernières technologies du numérique, ce, avec des opérateurs qualifiés, pour faire notamment face à l’évolution rapide de l’environnement réglementaire. C’est pourquoi nous complétons notre expertise interne et nos propres ressources informatiques par des partenariats externes.
Pour atteindre le niveau requis de performance et de diversité technologique tout en assurant une haute disponibilité des services, nous complétons l’infrastructure informatique en propre de BIOASTER par des ressources du mésocentre CC-IN2P3 (CNRS, Lyon). Nous disposons ainsi de services IaaS, PaaS et SaaS, d’infrastructure de calcul à haut débit, de capacités de stockage de l’ordre du pétaoctet et de réseaux à large bande passante. Dès le départ conçue pour être évolutive et flexible, nous complétons également notre infrastructure Cloud hybride avec des ressources et des services provenant de fournisseurs de clouds commerciaux de type GAFAM.
La conformité de notre système d’information avec les normes de sécurité est une préoccupation quotidienne afin de garantir l’intégrité et la confidentialité des données. Nous nous référons à des normes reconnues de contrôle et de supervision, inscrites dans le cadre de notre certification ISO9001 et de notre politique interne en termes de SSI. Certaines ont déjà pu être évaluées lors d’audits mandatés par nous-mêmes ou par nos partenaires.
Ces préoccupations en matière de confidentialité des données et de cyber-sécurité sont essentielles quant à la conformité aux exigences du RGPD. Nous avons démontré une telle conformité dans l’évaluation de l’impact sur la vie privée (PIA) d’études cliniques dans lesquelles BIOASTER agit comme responsable (ou co-responsable) du traitement des données à caractère personnel.
- Nous mettons à disposition des ressources flexibles 100% virtualisées permettant une planification des capacités adaptée tant aux besoins qu’aux engagements (en temps et budget) de votre projet.
- Une infrastructure prête pour les applications big data et d’IA
> Par exemple pour vos projets les plus exigeants faisant appel au séquençage de 3ème génération, à la métagénomique, à de l’intégration multi-omique ou à de l’apprentissage profond.
- Transfert de technologies prêtes à l’emploi
> Nous anticipons un déploiement rapide dans l’écosystème de nos partenaires, une fois le projet terminé ; par exemple, des réinstallations complètes basées sur une technologie de conteneurs de type Docker.