En naviguant sur notre site vous acceptez l'installation et l'utilisation des cookies sur votre ordinateur. En savoir +

Menu Bienvenue sur le site MISTEA logo-supagro

Site internet de l'UMR Mistéa à Montpellier

Gamma

GAMMA
(Gestion, Analyse et Modèles pour les Masses de données en Agronomie)

Responsable : Nadine Hilgert

Contexte

Les approches expérimentales et théoriques sont reconnues depuis plusieurs siècles comme les paradigmes fondateurs de la recherche scientifique. Plus récemment, les simulations sont devenues un outil standard pour explorer des domaines jusqu’alors inaccessibles. Des techniques d’expérimentation et de simulation produisant des quantités grandissantes de données, de l’usage des technologies de l’information et de la communication est né un quatrième paradigme de recherche qui est maintenant admis : la science ”data-intensive” (selon l’expression de J. Gray et A. Szalay, eScience : Transformed Scientific Method) dont les caractéristiques sont d'être collaboratives, intégrées et gouvernées par les données.

La recherche dans les sciences de l’agronomie et de l’environnement est symptomatique de cette évolution. Dans ces domaines, l’utilisation de nouveaux moyens techniques pour les expérimentations produit des ensembles de données de plus en plus riches. De plus, si la mise en place de ces expérimentations aussi bien en plein champs qu’en laboratoires est un enjeu de recherche sans cesse renouvelé (ex : plate-formes de phénotypage, études biologiques des sols, bioprocédés) les techniques de modélisation ont également pris de l’importance au cours des dernières décennies. Un questionnement scientifique demande la constitution d’ensembles de données in-vivo et in-silico, où les données sont de nature diverses (phénotypiques, environnementales, génotypiques), de types variés (courbes, mesures, expertise, spatio-temporelles, etc), de qualité hétérogène (certaines données sont très bruitées ou peu sûres) et collaboratives (c’est-à-dire issues non pas d’une expérimentation mais d’un réseau d’expériences). Valoriser et exploiter ces masses de données nécessitent  une nouvelle génération d’outils capable de les gérer et de les analyser.

Projet

L’ambition scientifique de l’équipe GAMMA (Gestion, Analyse et Modèles pour les Masses de données en Agronomie) est de développer des méthodes et de fournir des outils dédiés à un traitement systématique de ces données avec une attention particulière pour la dimension temporelle. Les synergies créées par la présence d’informaticiens, de statisticiens permettent à l’équipe d’adopter une approche intégrée allant de l’organisation des données en lien avec des connaissances jusqu’à la prédiction ou la décision. A ce titre, l’équipe GAMMA est aussi bien partie prenante du LABEX NUMEV dont les objectifs sont, pour nous, d’ordre méthodologique que du LABEX AGRO dédié à l’étude de systèmes agronomiques.

Systèmes complexes d’intérêt agronomique ou environnemental

Les domaines d’applications visés par l’équipe sont les plantes, les procédés et la transformation des aliments. L’agriculture de précision ou la gestion de ressources naturelles sont également dans notre champ d’action.

Figure 1 - Système de type filière

Ces domaines d’application ont tous, du point de vue méthodologique, des caractéristiques et une problématique commune : (i) ces systèmes sont étudiés en interaction avec l’environnement et observés au cours du temps (ii) leur complexité a pour origine qu’ils intègrent plusieurs échelles ou une succession de grandes étapes de type filières. Enfin, les  degrés de finesse d’observation de ces systèmes sont très variables comme par exemple des mesures en ligne et des connaissances expertes qui décrivent des concepts et des comportements.

Activités

Sur ces systèmes complexes d’intérêt agronomique ou environnemental observés au cours du temps, nos activités peuvent être regroupées suivant 2 axes :

  1. Gestion, qualité des données et connaissances qui est centrée sur la gestion d’information scientifique 
  2. Compréhension, prédiction et aide à la décision qui est orientée sur l’exploitation de cette information

Axe 1 : Gestion qualité des données et connaissances
Le premier axe concerne l’acquisition, l’organisation ainsi que la mise à disposition de données intégrées de bonne qualité et de connaissances. Ces données peuvent être complexes, multi-échelles et souvent non-reproductibles (phénotypage en champs, millésime, etc) ou encore générées par des modèles. L’objectif est le développement de méthodes pour  permettre de gérer ces données de façon intégrée. La prise en compte des évolutions des types de données produites par des expérimentations évoluant au gré des innovations technologiques ou des priorités scientifiques est aussi une vraie difficulté.

Figure 2 - Système multi-échelles

L’équipe GAMMA propose une approche originale, basée sur des graphes sémantiques, pour collecter et organiser des données multi-échelles issues de sources hétérogènes. L’équipe développe aussi des méthodes pour l’intégration de savoir-faire par apprentissage de règles à partir des données disponibles, par exemple sur un agro-écosystème. Du point de vue méthodologique, cet axe soulève des questions et nos objets d’étude sont les modèles de données, de descriptions (RDF) et d’ontologies.

Une fois les données organisées, celles-ci ne sont généralement pas directement analysables, une validation et un prétraitement étant nécessaires. Les observations sont parfois  bruitées suite à un incident (ex : capteur décroché), il faut donc pouvoir détecter de tels problèmes et éventuellement reconstruire une donnée corrigée. Le nombre important des données à traiter requiert le développement de procédures automatiques et génériques. De telles approches combinant informations d’expert et méthodes statistiques sont étudiées dans l’équipe. Une autre démarche suivie par l’équipe est la construction de procédures statistiques prenant au mieux en compte des connaissances expertes bien spécifiques. Ainsi,  par exemple, de nombreuses cinétiques sont connues pour être croissantes (voire convexes). L’utilisation d’une telle connaissance pour estimer la cinétique ne peut se traduire  directement dans un cadre statistique ou informatique simple. Les recherches de l’équipe GAMMA ont abouti au développement de méthodes d’estimation bayésienne qui reconstruisent au mieux la courbe en utilisant des contraintes de forme.

Une fois les données gérées, le praticien dispose d'une combinaison de données (expérimentales et simulées) et de connaissances sur ces données. L’utilisation générique de ces connaissances pour l’analyse des données est difficilement appréhendable par des approches statistiques classiques. Dans ce cadre, il est intéressant de formaliser des connaissances, par exemple en utilisant les différents niveaux (échelles) de granularité d’une ontologie. Ce qui constitue une façon pertinente de guider des outils d’apprentissage tels que les arbres de décisions ou les méthodes de segmentation. Cela permet d’aboutir à l’enrichissement des ontologies et des connaissances.

Axe 2 : Compréhension, prédiction et aide à la décision.
Nombre d’études agronomiques sont dédiées à l'évolution dynamique de plantes ou d’individus, au premier lieu desquels les cinétiques de croissance. Historiquement, l'équipe GAMMA  s’est impliquée dans l'analyse de ces données dites longitudinales ou fonctionnelles selon le nombre et la fréquence des observations. La panoplie des approches développées, incluant aussi bien des approches paramétriques que non-paramétriques, fréquentistes et bayésiennes permet d’ajuster les procédures aux spécificités des applications étudiées. Un enjeu émergeant est de confronter ces données de courbes à un nombre généralement élevé de cofacteurs comme, dans le domaine du phénotypage de plantes, des informations génétiques ou environnementales dans des études intégrées. A titre d'exemple, une des composantes de cet enjeu est la recherche des déterminants génétiques responsables de la croissance du maïs sous des contraintes de stress hydriques. L’analyse de ces données nécessite de créer d’adapter des approches novatrices combinant analyse de courbes (statistiques  fonctionnelles), statistiques en grande dimension (sélection de variables), intégration multi-échelles (modèles hiérarchiques) ou classification (clustering). Un autre enjeu est de mêler des approches statistiques et des approches déterministes pour l'analyse de données temporelles. L’objectif est d’estimer des propriétés d'un système dynamique bruité ou même de comprendre les propriétés d’un modèle dynamique complexe (ex : modèle de dynamique d’une association forêt-céréales) à l’aune d’une analyse statistique des simulations.

Les domaines d’application sont aussi différents que l’étude de la parcelle agricole (agriculture de précision), des transformations agroalimentaires, ou à l’échelle de la filière complète (Projet PILOTYPE pour la filière viticole). Les apports méthodologiques produits lors des différents projets se concrétisent par la fourniture de logiciels à destination (industrie agroalimentaire, viticulture). Des outils de raisonnement permettant d’associer données et expertises ont été développés à partir de différentes méthodes de formalisation de la connaissance (ontologie, logique floue). Ils permettent de prendre en compte la granularité de l’information pour la construction de variable agrégées à l'échelle du système (par exemple filière).

Développement logiciel

Les méthodes proposées par l’équipe donnent lieu à des développements d'outils logiciels avec un souci de généricité. Ces logiciels sont développés en impliquant fortement les laboratoires partenaires durant toutes les phases. Cela nous permet de prendre en compte au mieux les problématiques et les besoins des utilisateurs comme pour les projets SILEX (Système d’Information pour L’EXpérimentation) ou Fispro (Logiciel d’inférence à partir de données d’apprentissage). Une telle démarche permet de valoriser et aussi de mieux cibler les travaux de l’équipe. Cela permet également d’accroître notre visibilité dans des domaines agronomiques telles que les filières viticoles ou céréalières.

Deux projets structurants emblématiques :

  • Phenome (Infrastructures d’excellence). Le phénotypage est devenu une limitation majeure dans les programmes visant à construire des génotypes qui maintiennent ou augmentent les performances de cultures sous influence du changement climatiques et de réduction d'intrants. L'objectif de Phenome est donner à la France une infrastructure polyvalente et novatrice ainsi qu’une palette de méthodes permettant la caractérisation de nombreux génotypes de différentes espèces sous des scénarios de changement climatique. Le projet Phenome regroupe 12 laboratoires académiques et 2 instituts techniques professionnels. L’originalité stratégique du projet est de développer les projets méthodologiques à l'échelle du consortium. Parmi ces projets, l’équipe GAMMA est co-responsable de deux tâches : le développement d’un système d’information accessible à toute la communauté de recherche du projet Phenome (axe 1) et le développement d’approches mathématiques et informatiques pour annoter et analyser les phénotypes (axes 1 et 2).
  • LACCAVE : Long term impacts and adaptations to Climate Change in Viticulture and Enology (Méta-programme ACCAF). En prenant en compte l’importance économique de la viticulture et de l’industrie du vin en France, les spécificités en regard du changement climatique et la nécessité d’une approche globale et transdisciplinaire, le projet LACCAVE va étudier les stratégies d’adaptation et d’innovation pour la viticulture et la production de vin en France en réponse au changement climatique. Le projet LACCAVE se structure autour de 22 équipes de recherches de 7 départements scientifiques de l’INRA. La problématique portée par l’équipe GAMMA vise à rassembler les différents types d’information reliés au secteur du vin dans un système d’information intégré (axe 1). L’analyse des données intégrées nécessaires à la formulation de scénarios et à la validation de modèle reposera, entre autres, sur des méthodes développées au sein de l’équipe GAMMA (axe 2). 

Collaborations principales :

        LEPSE, IATE, SPO, SYSTEM, LBE, Eco&Sols, Pech-Rouge et plus largement les équipes des Labex AGRO.

Partenaires méthodologiques :

        I3M UM2, LIRMM, EPI Zenith et équipes du Labex NUMEV.

Membres de l’équipe :

Chercheurs

Cellule développement logiciel

Christophe Abraham Pr SupAgro
Meili Baragatti MC SupAgro
Brigitte Charnomordic IR INRA
Bénédicte Fontez MC SupAgro
Nadine Hilgert CR INRA
Patrice Loisel CR INRA
Nicolas Molinari MC UM-1
Pascal Neveu IR INRA
Nicolas Verzelen CR INRA

 Martine Marco TR SupAgro
 Anne Tireau AI INRA
 Alexandre MAIRIN - CDD INRA

Doctorants et Post-doctorants

Damien Juery Doct
Maximilien Servajean* Doct (30%)
Nicolas Sutton Doct
Tito Manrique Doct