Stage Master2 - Statistiques 2020

Stage Master2 Statistiques/mathématiques appliquées

Développement et utilisation de méthodes sparses pour la classification de micropolluants (printemps 2020)

Contexte

Dans le cadre d’un projet de recherche INRA sur les micropolluants, les contaminants organiques sont classés non plus par familles chimiques mais selon leurs propriétés (la rétention irréversible, leur transfert vers l’air ou les eaux, leurs effets toxicologiques, etc). Ce projet a donné lieu à un outil informatique appelé TyPol, basé sur le logiciel RStudio, permettant de réaliser cette classification online sur une base de données MySQL. Cet outil, qui a été publié (Servien et al., 2014), est basé sur une régression PLS combiné à une classification hiérarchique. Il permet actuellement de classer plus de 500 molécules (pesticides, composés pharmaceutiques ...) et a été récemment utilisé pour explorer le comportement environnemental et la toxicité de certains pesticides et de leurs résidus (Storck et al., 2016 ; Benoit et al., 2016 ; Traoré et al., 2018).

Mission

TyPol est actuellement basé sur une base de données contenant 40 descripteurs moléculaires. Des avancées récentes en chimie théorique ont permis de récupérer 800 descripteurs sur plus d’une centaine de molécules. Cette base de données de grande dimension peut maintenant difficilement s’analyser à l’aide d’une régression PLS classique. Il est nécessaire d’utiliser une méthode sparse d’analyse des données permettant de sélectionner les descripteurs pertinents. Pour cela, plusieurs approches pourront être envisagées. La sparse-PLS (Le Cao et al., 2008) permet de faire cette sélection à l’aide d’une pénalité contrôlant le nombre de descripteurs pertinents. Une autre approche pourrait être l’adaptation de la méthode CovSel (Roger et al., 2010) à notre cadre multivarié. Ces deux approches sont un point de départ intéressant pour le développement et l’utilisation de méthodes sparses dans notre cadre de classification de micropolluants.

Profil recherché

  • Master 2 ou dernière année d’école d’ingénieur en statistique/mathématiques appliquées ;
  • Maîtrise d’un langage de programmation scientifique (R, Matlab) ;
  • Bonnes connaissances en statistiques multivariées ;
  • Aucune connaissance préalable en chimie ou en biologie n’est nécessaire mais un goût pour ce domaine appliqué serait un plus.

Conditions du stage

  • durée : 4 à 6 mois
  • localisation : unité INRA LBE, Laboratoire de Biotechnologie de l’Environnement, 102 Avenue des Etangs, 11100 Narbonne, France
  • rémunération : taux légal (environ 554 euros)
  • encadrement : Eric Latrille, Virginie Rossard, Rémi Servien
  • contact : eric.latrille (arobase) inra.fr ; virginie.rossard (arobase) inra.fr ; remi.servien (arobase) inra.fr

Bibliographie

  1. R. Servien, L. Mamy, Z. Li, V. Rossard, E. Latrille, F. Bessac, D. Patureau and P. Benoit. TyPol - a New Methodology for Organic Pollutants Clustering based on their Molecular Characteristics and Environmental Behavior, Chemosphere (2014), 111, 613-622.
  2. V. Sorck, L. Lucini, L. Mamy, F. Ferrari, E. S. Papadopoulou, S. Nikolaki, P. A. Karas, R. Servien, D. G. Karpouzas, M. Trevisan, P. Benoit and F. Martin-Laurent. Identification and characterization of tebuconazole transformation products in soil by combining suspect screening and molecular typology, Environmental Pollution (2016), 208 B, 537-545.
  3. H. Traore, O. Crouzet, L. Mamy, C. Sireyjol, V. Rossard, R. Servien, E. Latrille, F. Martin-Laurent, D. Patureau and P. Benoit. Clustering pesticides according to their molecular properties, fate and effects by considering additional ecotoxicological parameters in the TyPol method, Environmental Science and Pollution Research (2018), 25(5), 4728-4738.
  4. P. Benoit, L. Mamy, R. Servien, Z. Li, E. Latrille, V. Rossard, F. Bessac, D. Patureau and F. Martin-Laurent. Categorizing chlordecone potential degradation products to explore their environmental fate, Sciences of the Total Environment (2017), 574, 781-795.
  5. K. Le Cao, D. Rossouw, C. Robert-Granié, and P. Besse. A sparse PLS for variable selection when integrating omics data. Statistical applications in genetics and molecular biology, 7(1),2008.
  6. J.M. Roger, B. Palagos, D. Bertrand, E. Fernandez-Ahumada. CovSel : Variable selection for highly multiva-riate and multi-response calibration. Application to IR spectroscopy. Chemometrics and Intelligent Laboratory Systems, 2010, 106(2).

Date de modification : 18 juillet 2023 | Date de création : 23 octobre 2019 | Rédaction : LBE