Une équipe pluridisciplinaire du Centre de recherche d’immunologie et d’hématologie et de l’Institut de recherche mathématique avancée a mis au point une méthode pour mieux sélectionner les variables les plus intéressantes au sein d’un jeu de données.
24/11/2020
SelectBoost est née d’un besoin : obtenir une sélection de variables les plus pertinentes possibles, dans un jeu de données important. Frédéric Bertrand et Myriam Maumy, chercheurs en mathématiques, collaborent avec Seiamak Bahram et Raphaël Carapito et leurs équipes du Centre de recherche d’immunologie et d’hématologie (Inserm – Université de Strasbourg) sur l’analyse d’un réseau de gènes. « Nous travaillons sur certains types de cancers et nous voulons déterminer quelles interactions entre les gènes sont à l’origine de cellules plus ou moins agressives », explique Frédéric Bertrand.
Il existe des milliers d’interactions possibles entre les gènes et les chercheurs doivent en proposer un nombre réduit, qui seront ensuite vérifiées en laboratoire. « Nos résultats sont testés par des biologistes, au moyen de manipulations complexes à réaliser. Nous ne devons pas faire d’erreur. »
Or, explique le mathématicien, le défaut des méthodes de sélection de variables est leur grande instabilité. Il donne l’exemple de l’étude de l’atmosphère d’une ville : pour déterminer le taux d’ozone à midi dans une zone géographique précise, le chercheur dispose de nombreuses données. Il peut choisir d’observer la température, le sens du vent ou l’affluence de véhicules.
Si la température varie selon les jours, il est possible que la méthode de sélection la choisisse comme variable pertinente à 20.5 degrés, mais pas à 21. Les modèles classiques sont donc très dépendants des valeurs des variables au moment où elles sont observées.
Dans le cas du réseau de gènes, ce sont les expressions des gènes et leurs impacts entre eux qui peuvent varier. SelectBoost doit déterminer quels sont les gènes les plus susceptibles d’influencer la malignité des cellules cancéreuses.
Choisir les bonnes variables pour pouvoir les influencer
SelectBoost teste les variables à plusieurs reprises, en modifiant à chaque fois légèrement les données et en tenant compte de leurs éventuelles corrélations, pour effectuer une sélection plus éclairée. « Une fois les variables les plus stables et pertinentes retenues, il est ensuite possible d’agir sur certaines d’entre elles. Si pour le pic d’ozone, ce sont la température et le trafic routier qui sont mis en cause, nous pouvons concentrer nos efforts sur la régulation du nombre de véhicules autorisés à circuler », résume le mathématicien.
Dès les premiers résultats concluants, l’équipe réalise le potentiel de la méthode : elle pourrait aider n’importe quel analyste qui travaille sur un jeu de données. « Le seul défaut de SelectBoost est qu’elle présente un certain coût calculatoire. Si le modèle prend normalement cinq minutes à être testé, il faudra multiplier ce temps par le nombre de fois où l’on modifie les données pour déterminer les bonnes variables. » Il existe cependant une version parallèle de l’algorithme qui réduit grandement cette limite.
Afin de faire bénéficier l’ensemble de la communauté des chercheurs de SelectBoost, Frédéric Bertrand a mis son code en ligne, en libre accès. Il nécessite l’utilisation du logiciel R, bien connu des statisticiens.
Léa Fizzala
- Le code de SelectBoost est disponible via ce lien URL ou celui-ci, et un site internet dédié au package se trouve là.
- L’intégralité de l’article de recherche en anglais est disponible en open access ici.