Inter-Med@Lyon

Intermède. nom masculin

Ce qui interrompt un processus, une activité.

Projet d'amorçage - vague 1

SMAD-CC

L’équipe de SMAD-CC a eu la gentillesse de nous accueillir au Centre Léon Bérard dans une petite maison de ville attenante, dans laquelle elle est installée pour les deux ans du projet. Loïc VERLINGUE, Dounya BOURHANI et Paul MINCHELLA se sont prêté.es au jeu du questions/réponses dans une ambiance décontractée.

Loïc VERLINGUE

Je suis médecin, j’ai suivi un cursus de médecine à l’Institut Gustave-Roussy, dans le groupe de médecine de précision et phase 1. Je travaille au Centre Léon Bérard (CLB) depuis 2 ans et demi. Je participe au suivi des patients dans les essais cliniques de phase précoce, qu’on appelle aussi essais de phase 1. Je gère la RCP moléculaire et j’anime l’équipe de Data Scientists dont font partie Dounya et Paul. 

Dounya BOURHANI

Je m’appelle Dounya, je suis stagiaire sur le projet SMAD-CC. Je travaille principalement sur l’intégration des données pharmacologiques dans les comptes rendus médicaux. Concrètement, je teste les performances de modèles d’apprentissage pour améliorer certaines tâches médicales.

Paul MINCHELLA

Je suis Paul Minchella, diplômé de l’université Claude Bernard Lyon 1. J’ai rejoint l’équipe du projet SMAD-CC fin avril 2024 en tant que mathématicien, ingénieur de recherche et Data Scientist, je travaille au Centre Léon Bérard en collaboration avec le laboratoire ERIC.

Est-ce que vous pouvez me parler du projet en quelques mots ?

Paul MINCHELLA :

Notre problématique consiste à intégrer des multi-données dans nos modèles pour aider à améliorer nos objectifs cliniques. Peut-on améliorer la qualité de vie des patients en adaptant les traitements grâce aux outils d’Intelligence Artificielle ?

Loïc VERLINGUE :

L’objectif du projet est de montrer qu’en utilisant plus de données de diverses natures, on améliore les prédictions cliniques à partir de modèles d’Intelligence Artificielle. Les différents types de données sont entre-autres :

  • textuelles (narratives) donc les comptes rendus de consultation que les soignants génèrent.
  • structurées qui peuvent être soit cliniques (des informations cliniques structurées) soit biologiques (des prises de sang par exemple).
  • moléculaires sur des biopsies et sur le plasma issu du séquençage des cancers de nos patients (données spécifiques à l’oncologie).
  • d’imageries comme les scanners ou les lames anatomopathologiques, ce qui est abordé par d’autres projets du CLB.

On a une belle base de données moléculaires, avec à peu près 6000 patients qui ont été séquencés dans l’essai ProfilLER, c’est un essai du CLB. Mais par rapport aux 140 000 patients dont on a les données textuelles, on se rend compte qu’il y a un différentiel.

Comment êtes-vous venu à la multi-données ?

Loïc VERLINGUE :

Avant de me lancer dans un projet complexe qui consiste à cumuler les données et à les intégrer, je travaillais « données par données », donc type de données par type données. On prend des données moléculaires et on regarde ce que l’on peut en faire pour les applications cliniques, et ainsi de suite avec les données biologiques, textuelles, images, etc.

Aujourd’hui, il y a des outils de plus en plus sophistiqués pour utiliser plusieurs types de données, on est à une époque charnière dans le domaine et plusieurs équipes s’orientent clairement vers la multi-donnée. C’était très compliqué de faire de la multi-données il y a cinq ans, car très peu utilisé et peu comparable par rapport à d’autres choses. 

À l’heure actuelle, il y a des challenges et c’est un domaine ouvert et dont la communauté commence à se saisir. Dans le domaine de la médecine de précision, on utilise les multi-données pour orienter les patients sur des traitements en fonction de leurs anomalies génétiques du cancer. C’est fait par les experts, en routine. Parfois il nous manque des données difficiles à obtenir dans le temps imparti, comme les images anatomopathologiques, ou l’historique complet du patient.

Est-ce que les cliniciens vous demandent de mettre des priorités sur certains cancers ?

Loïc VERLINGUE :

Il y a un grand débat depuis 15 ans. Est-ce qu’en médecine de précision, il faut avoir une approche pan-tumeur, ou type tumoral par type tumoral ? Les médicaments ciblés ont été développés par type tumoral par les industries pharmaceutiques, et il y en a assez peu qui sont approuvés en pan-tumeur, pour tout type tumoral. Pourquoi on pense qu’une approche pan-tumeur peut aider ? Parce qu’il y a des anomalies moléculaires des cancers, par exemple une amplification ou altération de HER2 retrouvée fréquemment dans les cancers du sein, qui est aussi retrouvée dans d’autres cancers, type cancer gastrique, cancer du côlon, cancer du poumon.

Dans ce cas on peut se demander pourquoi un traitement n’est développé que dans un type de cancer et pas pour les autres patients avec cette altération,  qui n’ont ou n’auront donc pas accès à ce traitement au moment où il sera approuvé et utilisé en routine. C’est un débat, il n’y a pas de bonne approche.

Mais nous, on a choisi, sûrement par ma formation aussi, de faire ce projet en pan-cancer, parce qu’en médecine de précision, et en RCP moléculaire particulièrement, on nous demande des avis sur tous types de patients, dont certains ont des cancers très rares que même moi je ne connais pas bien. Donc, pan-cancer, c’est probablement le plus pertinent pour les applications de médecine de précision.

Poster SMAD-CC

Résumé illustré du projet SMAD-CC, ce poster scientifique a été présenté lors de la journée annuelle SHAPE-Med du 22 mai 2024.

Comment avez-vous rencontré vos co-porteurs ?

Loïc VERLINGUE :

Quand je suis arrivé à Lyon, je cherchais des gens qui faisaient du NLP, Natural Language Processing, de l’Intelligence Artificielle sur des données textuelles. Le labo ERIC en faisait, je m’en suis rapproché et c‘est comme ça que j’ai rencontré Julien Velcin et Stéphane Chrétien qui m’a ensuite assez rapidement présenté Guillaume Metzler qui est le co-porteur officiel du projet SMAD-CC. On a participé aux tous premiers ateliers SHAPE-Med puis on a répondu à l’appel à projet.

Qu'attendez-vous à l'issue de ces deux ans ?

Loïc VERLINGUE :

D’avoir des résultats ! (rires) La réussite serait de prouver que le fait de rajouter une donnée supplémentaire aux données textuelles permet d’améliorer les prédictions. Selon les données, on pense qu’il y a des choses à prédire plus pertinentes que d’autres. Dounya, tu veux parler de ton travail ?

Dounya BOURHANI :

Mon travail consiste à traiter les comptes rendus médicaux des médecins afin de détecter les noms des médicaments qui y sont mentionnés. Ensuite le but est de transformer ces noms de médicaments avec leur formule SMILES (une formule chimique spécifique pour les données pharmacologiques) et d’observer les résultats de cette transformation. Est-ce qu’elle permet d’améliorer les prédictions ? En ce moment je travaille sur la prédiction des événements médicaux futurs d’un patient, qui sont d’ailleurs parfois, lié à l’effet indésirable d’un traitement.

C'est quoi un événement médical ?

Dounya BOURHANI :

Un nouvel événement médical, c’est un nouveau symptôme, ou une nouvelle maladie, ou un syndrome, qui apparaît. Il peut y avoir plusieurs cas de figures, allant des effets indésirables d’un médicament, par exemple un patient qui a eu des nausées à la suite d’une chimiothérapie, à des événements sévères. Un patient hospitalisé pour un symptôme est considéré comme un événement médical sévère, une infection par exemple. 

Quelles sont les difficultés liées à la nature de votre métier ?

Loïc VERLINGUE :

Faire trop de choses ! c’est le temps qui manque donc c’est ma principale difficulté. Et mon objectif par rapport à ces difficultés, c’est de monter une équipe autonome avec des personnes de différents niveaux de compétences. Par exemple, des gens un peu plus seniors qui peuvent aider les plus juniors, comme les masters, ou éventuellement des stagiaires en médecine. Et inversement, les stagiaires en médecine, ou les gens issus de disciplines complémentaires peuvent apporter des idées aux plus seniors qui ne connaissent pas forcément leur domaine d’application. C’est une équipe jeune, ça fait 2 ans que j’ai commencé à la monter, ça demande du temps mais actuellement l’équipe s’équilibre bien.

Paul MINCHELLA :

En tant que Data Scientists, on traite une grande variété de données – des relevés numériques, des variables qualitatives, des suivis médicaux, des données textuelles, etc. – et chaque type de données nécessite une approche spécifique. La difficulté réside dans l’harmonisation de ces diverses approches avec les publications actuelles afin de tout consolider. Nous sommes à un tournant dans notre domaine, avec une profusion de publications provenant de mathématiciens, de Data Scientists et de médecins. Cette abondance est à la fois fantastique et prometteuse, mais la question cruciale est de savoir comment les utiliser de façon optimale.

Loïc VERLINGUE :

Une des difficultés quand on fait du multi-data, c’est d’avoir accès aux données médicales car ce sont des données sensibles qu’il faut utiliser avec une sécurité maximale et qui sont reparties dans de multiples bases de données. On travaille de manière étroite avec la DSI (responsable de de la donnée médicale) pour avoir tous les niveaux de données que l’on souhaite. C’est un travail en cours, par exemple, Paul n’a pas encore accès à toutes les données, mais ça demande plein d’étapes. C’est une difficulté car ça prend du temps, de l’énergie, c’est assez réglementaire et administratif. En science, on aime bien faire le moins de réglementaire/administratif possible et le plus de science possible ! (rires) Mais évidemment, c’est justifié parce que la sécurité des données et la confiance que nous donnent les patients sont en jeu. Je ne conteste pas du tout cette procédure, mais c’est sûr que cela demande un niveau d’exigence supplémentaire d’utiliser ce type de données.

Comment se passe la collaboration avec l'équipe du laboratoire ERIC ?

Paul MINCHELLA :

 Le laboratoire ERIC apporte un précieux input méthodologique, en complément de notre expertise clinique en Machine Learning. Nous collaborons régulièrement avec Stéphane Chrétien et Guillaume Metzler, tous deux professeurs chercheurs. En termes de méthodologie, j’utilise les signatures de chemins et la prédiction conforme, en plus des modèles d’IA textuels cliniques adaptés.

Dans le domaine médical, obtenir des prédictions plus précises et significatives dans un intervalle de fluctuation petit est un avantage considérable. Nous nous efforçons de rester à la pointe de la technologie, notamment avec l’apparition de grands modèles de langage open source. Notre équipe combine plusieurs méthodes et approches. Avec l’expertise de Loïc, qui maîtrise à la fois les aspects techniques et médicaux, nous évaluons et intégrons ces diverses méthodes pour obtenir les meilleurs résultats possibles.

D'un point de vue éthique, est-ce bien de prédire ?

Paul MINCHELLA :

C’est un énorme sujet qui dépend fortement des tâches spécifiques. La question éthique doit être abordée de manière très précise en fonction de chaque tâche. Par exemple, pour Dounya, prédire les événements médicaux sévères est crucial. Une prédiction peut anticiper une toxicité sévère due à une chimiothérapie (comme des nausées et des vomissements) nécessitant une hospitalisation. L’ambition de cette prédiction est pleinement justifiée. On souhaite tous que les patients souffrent moins d’effets indésirables liés au traitement.

Loïc VERLINGUE :

Comment on évalue l’impact de notre prédiction et le bénéfice final aux patients ? Il faut pouvoir quantifier le bénéfice positif ou négatif. L’éthique a le mérite de poser des questions et la démarche scientifique tente d’y répondre.

C’est une dynamique qu’on va essayer de renforcer au CLB. Par exemple un papier vient d’être publié sur le sujet par mes collègues.  J’aimerais qu’on puisse plus fréquemment évaluer les outils d’intelligence artificielle et leur impact sur les praticiens, les médecins, les soignants, et bien sûr, les patients. C’est un aspect qui manque beaucoup à la discipline actuellement. Mais nous en sommes pleinement conscients et nous faisons tout notre possible pour y remédier avant que ces outils ne soient utilisés pour prendre de vraies décisions médicales.

Une question au choix

Quelle a été votre motivation principale lorsque vous avez démarré vos recherches ?

Loïc VERLINGUE :

C’est très difficile d’y répondre. Il y a plein de raisons. Une bonne raison, c’est de se dire qu’on peut améliorer la prise en charge des patients, parce qu’un médecin en consultation en 10 minutes ne peut pas avoir accès à toutes les données qu’on peut utiliser avec des modèles d’intelligence artificielle. On a un aperçu très partiel des données parce qu’on est contraint par le temps et ça empiète sur le temps qu’on peut avoir à consacrer aux patients.

L’autre explication, c’est aussi de pouvoir moins travailler ! (rires) C’est une bonne raison, mais en fait ça ne marche pas du tout parce qu’il y a beaucoup plus de travail quand on essaie de trouver des moyens de moins travailler. C’est complètement anti-productif. Donc j’ai de plus en plus de travail alors que je cherche à optimiser le travail au quotidien.

À quoi ressemble une journée type ?

Dounya BOURHANI :

Il n’y a pas vraiment de journée type, c’est toi et ton exigence ! Il n’y a pas de cadre strict et je trouve ça hyper bien personnellement. On a nos tâches et on avance de notre côté. Les missions évoluent au fil du temps, tous les jours il y a quelque chose de différent. En informatique, tu ne sais pas quel problème tu vas rencontrer, tu imagines que tu vas mettre 1h pour programmer un truc et au final, tu y passes toute la matinée. Là, par exemple je dois reprendre le code de quelqu’un et c’est un peu compliqué parce que je ne m’y retrouve pas forcément. Je prends plus de temps que ce que je pensais.

Mais ce ne sont pas vraiment des difficultés, c’est plutôt de nouveaux challenges tous les jours. Pour autant, la réaction n’est pas « je râle devant mon ordinateur toute la journée », c‘est plus « comment je vais me dépatouiller de tout ça » ! Moi, c’est comme ça que je vois ce monde de la recherche et de l’informatique. Tout ça combiné, je trouve ça hyper intéressant. En fait, la journée type n’existe pas ! 

Qu'est-ce qui vous a donné envie de devenir scientifique ?

Paul MINCHELLA :

Aujourd’hui, ça me fait très plaisir de travailler avec le Centre Léon Bérard parce que le cancer est une problématique qui me touche énormément. C’est une maladie qui me terrifiait quand j’étais petit. Je me rappelle d’un spot de prévention pour inciter les gens à aller se faire dépister. Il y avait une caméra qui rentrait dans le corps et qui suivait une petite cellule avec un visage un peu déformé et un petit sourire. C’était assez traumatisant. Cela permettait de souligner que détecter le cancer précocement peut considérablement améliorer les chances de guérison.

Ce qui est fait au CLB peut avoir un impact énorme sur les patients ! Cela me motive grandement sur le plan professionnel.

La playlist de SMAD-CC

Quelle est votre chanson ou artiste du moment ?

Dounya BOURHANI :

Moi, c’est plus urbain, des chansons qui passent à la radio. J’aime bien Aya Nakamura ou sinon du rap, par exemple Ninho.

Paul MINCHELLA :

En ce moment, j’écoute un groupe des années 70 : Fleetwood Mac que je trouve incroyable et que j’ai découvert il n’y a pas longtemps.

Sinon, j’écoute pas mal de classiques : Bach, c’est toujours très agréable d’écouter de la musique classique quand on travaille.

Loïc VERLINGUE :

Moi, j’ai une chanteuse qui m’a beaucoup marqué récemment, c’est Sampa The Great. Et elle fait un truc très électro-soul, mais c’est ultra punchy et un peu mystique en plus, j’adore.

Lexique SMAD-CC

  • SÉQUENCAGE : La progression du cancer est en partie déterminée par des altérations génomiques. L’avènement du séquençage nouvelle génération, ou séquençage à haut débit, à la base de la médecine de précision, permet d’établir la carte d’identité de chaque tumeur et de proposer une thérapie ciblée adaptée lorsque cela est possible.
  • RCP MOLÉCULAIRE : Réunion de Concertation Pluridisciplinaire en cancérologie, elle a pour objet d’assurer à chaque patient une prise en charge conforme aux recommandations de bonnes pratiques, elle rassemble oncologues, biologistes, pathologistes, ingénieurs de plateformes de biotechnologies… pour décider de la stratégie thérapeutique à adopter pour chaque patient.
  • MÉTHODE SMILES : elle permet d’échanger numériquement des descriptions de molécules arbitrairement complexes par le biais d’un fichier texte classique. La représentation SMILES étant très compacte, elle permet de stocker simplement des fichiers de plusieurs centaines de milliers de molécules (chimiothèques).
  • Essai ProfiLER : Étude visant à étudier le profil génétique et immunologique de la tumeur, chez des patients ayant une tumeur avancée.
  • BIOPSIE : Une biopsie est une intervention lors de laquelle on prélève un échantillon de tissu ou de tumeur afin de l’examiner au microscope. La biopsie est employée pour diagnostiquer le cancer ou pour déterminer si une anomalie est cancéreuse ou non.
  • NLP : Natural Language Processing, est un domaine multidisciplinaire impliquant la linguistique, l’informatique et l’intelligence artificielle, qui vise à créer des outils de traitement du langage naturel pour diverses applications. 
  • PLASMA : Le plasma est la partie liquide du sang de couleur dorée dans laquelle circulent les cellules sanguines comme les globules rouges, les globules blancs et les plaquettes. Il est composé à 90% d’eau et se régénère très vite.
  • HER2 : c’est une protéine naturellement présente dans l’organisme. Il s’agit d’un récepteur transmembranaire impliqué dans la régulation de la prolifération cellulaire. Quand une cellule devient cancéreuse, il peut arriver que le nombre de récepteurs HER2 présents à sa surface augmente anormalement. Cette augmentation favorise la croissance des cellules cancéreuses. On dit alors que ces cellules « surexpriment » HER2 ou qu’elles sont HER2 positives.
  • PRÉDICTION CONFORME : La prédiction conforme est un procédé statistique visant à quantifier l’incertitude des prédictions d’un modèle en produisant des régions de confiances statistiquement valides (intervalles de prédiction), et ce, uniquement en supposant l’échangeabilité des données.
  • GPU : Un processeur graphique (GPU) est un circuit électronique capable d’effectuer des calculs mathématiques à grande vitesse. Les tâches informatiques telles que le rendu graphique, le Machine Learning (ML) et le montage vidéo nécessitent l’application d’opérations mathématiques similaires sur un grand jeu de données. La conception d’un GPU lui permet d’effectuer la même opération sur plusieurs valeurs de données en parallèle. Cela augmente son efficacité de traitement pour de nombreuses tâches de calcul intensives.

Une dernière question...

Quel est votre livre de chevet ?

Loïc VERLINGUE :

C’est pas très « léger » en ce moment. (rires) Je lis « I Contain Multitudes », un livre sur la microbiologie animale et humaine, en anglais.

SHAPE-MED :

L’effet soporifique est peut-être bon.

Loïc VERLINGUE :

C’est passionnant ! Au contraire, ça m’empêche de dormir, (rires) c’est assez fou.

I contain multitudes - Ed YONG

Nous allons suivre SMAD-CC tout au long de leur projet et nous aurons l’occasion de vous présenter leurs avancées lors de nos prochaines rencontres avec les porteuses. Suivez-nous pour ne rien rater !

SHAPE-Med

dans votre boîte mail

Suivez-nous !