Laboratoire informatique d'Avignon

Le Laboratoire informatique d'Avignon (LIA) est un laboratoire de recherche français en informatique sous la tutelle d'Avignon Université et situé sur son Campus Jean-Henri Fabre.

Pour les articles homonymes, voir LIA.

Le LIA est une équipe d'accueil (EA 4128) créée en 1987, qui regroupe les enseignants-chercheurs relevant de la 27e section du Conseil national des universités (CNU) ainsi que les étudiants de doctorat et du master durant la période consacrée à leur travail de recherche.

Ce laboratoire est actif dans les thématiques de recherche sur l'optimisation et la recherche opérationnelle, les réseaux informatiques, le traitement automatique du langage naturel (TALN), et plus récemment les sociétés numériques et les systèmes complexes. Il a organisé de nombreuses conférences nationales et internationales (JEP/TALN 2008, IEEE WIMOB 2008, EACL 2012...), s'engage dans des campagnes d'évaluation (NIST, INEX, ESTER, DUC/TAC, Défi fouille de Texte, CLEF-INEX...).

Le LIA développe des plates-formes logicielles qui sont généralement distribués sous licence libre (MISTRAL/ALIZE, SPEERAL, CORTEX). Le LIA fait partie du Laboratoire d'excellence (Labex) Brain and Language Research Institute (BLRI) et de la Fédération de recherche Agorantic (fédération CNRS mixte INSHS/INSII). Il est membre fondateur de l’Institut Carnot Cognition et de l’Institut Convergences Institut Langage, Communication & Cerveau. Il a été noté 4 A+ par l'AERES lors de l'évaluation 2012. Il est dirigé depuis 2020 par Yannick Estève.

Présentation

Fonctionnement

Le LIA se situe sur le territoire du Technopole Agroparc[1]. Il regroupe environ 80 personnes: une quinzaine de contractuels techniques (ingénieurs, post-doctorants, chercheurs) et administratifs, une trentaine de doctorants, une trentaine de chercheurs permanents (chercheurs et enseignants-chercheurs fonctionnaires titulaires) et quelques chercheurs invités. Il est intégré au Centre d'Enseignement et de Recherche en Informatique (CERI) de l'Université d'Avignon, qui propose des parcours de Licence et de Master en Informatique, en formation classique et par apprentissage. Malgré sa petite taille, il s'agit d'un laboratoire dynamique "à la pointe dans le traitement du langage écrit et oral, la reconnaissance vocale"[2], domaines de sa spécialisation[3]. Les étudiants en thèse du LIA sont tous financés. Ils le sont par des fonds issus des projets de recherche (ANR ou européens), des allocations de recherche ministérielles ou régionales, des conventions CIFRE ou encore des bourses de gouvernements étrangers.

Domaines de recherche

Les activités de recherche du Laboratoire Informatique d'Avignon couvrent plusieurs domaines de l'informatique. La liste inclut le traitement du langage naturel et de la parole, les réseaux informatiques, le multimédia, la représentation des connaissances, les interactions homme-machines, l'optimisation, la recherche d'information, l'étude des sociétés numériques et des systèmes complexes. Plusieurs projets sont financés par des organismes comme l'Agence nationale de la recherche (ANR), l'Association nationale de la recherche technique (ANRT) et des projets européens, comme le projet de dialogue homme-machine LUNA auquel a participé également l'université de Trente (Italie), l'Université de Rhénanie-Westphalie (Allemagne) et l'Académie des sciences de Pologne[4]. Le LIA privilégie le développement des outils de type source libre, ce qui permet la diffusion de logiciels[5] et du savoir-faire du laboratoire. Des techniques de pointe, telles que le résumé multimédia (audio, vidéo, image et texte) et guidé par l'analyse d'une opinion[6] font l'objet des études récentes du LIA[7].

Capacité de calcul et équipements

Le laboratoire possède ses propres capacités de calcul avec un cluster d'environ 200 cœurs, au , fonctionnant sous le système d'exploitation Mosix, environ 500 gigaoctets de mémoire vive pour 50 téraoctets de mémoire de masse. Ce cluster est exclusivement à l'usage des chercheurs du LIA (doctorants ou titulaires). Il est utilisé pour les applications de traitement automatique du langage, l'analyse de données multimédia, les travaux du laboratoire en recherche opérationnelle et sur les réseaux informatiques. Les stations de travail fonctionnent majoritairement sous GNU/Linux (Ubuntu), Windows et Mac OS X.

Rayonnement

International

Le LIA et l'IRIT ont organisé en 2004 le congrès Recherche d'information assistée par ordinateur (RIAO), conférence internationale en recherche d'information qui se déroule tous les trois ans sous l'égide du Centre de hautes études internationales d’informatique documentaire (CID) depuis 1985. Ce congrès de haut niveau est organisé par des institutions comme le Massachusetts Institute of Technology (MIT) en 1998, l'Université McGill en 1997 ou le Collège de France en 2000. Son édition de 2007 a eu lieu à l'Université Carnegie-Mellon (Pittsburgh) et a été parrainée par le Commissariat à l'énergie atomique, Google et Microsoft. En 2008, le LIA a organisé la conférence internationale IEEE WiMob'08[8]. En 2016, le laboratoire a organisé la 117e édition de la conférence European Study Group with Industry (ESGI), visant à mettre en contact des chercheurs et des industriels. Les partenaires industriels comportaient à la fois des grands groupes tels qu'Orange et EDF, et des PME de haute technologie. Le LIA a aussi organisé NetGCoop en 2016 (International conference on NETwork Games, COntrol and OPtimization).

Le laboratoire participe également aux conférences internationales dans ses domaines de recherche orginisées par les sociétés savantes internationales (IEEE, ACL, ACM, ISCA...). En 2012 la conférence The European Chapter of the ACL (Association for Computational Linguistics) (EACL) a été organisée par le LIA.

Enfin, les outils développés au LIA sont évalués régulièrement dans le cas des campagnes internationales, comme celles du National Institute of Standards and Technology (NIST, agence du département du Commerce des États-Unis visant à développer l'innovation et la compétitivité industrielle)[9]. Le laboratoire est notamment le porteur du projet Alizé, plate-forme d'authentification biométrique qui est utilisé par de nombreux industriels et laboratoires académiques (Thalès (FR), MIT (États-Unis), CMU (États-Unis), Berkeley (ICSI, États-Unis), QUT (Australie), IIT/Kampur (Inde), ENST (FR), University of Swansea (Royaume-Uni)...).

National

Le LIA et l'UAPV ont organisé en 2008 les conférences JEP (Journées d'études sur la parole) et TALN-RECITAL (Traitement automatique des langues naturelles) qui portent sur la recherche en parole, phonétique, linguistique computationnelle et Traitement automatiques de langues naturelles et en parole, réunissant 300 spécialistes venus de 14 pays[10]. Il a également organisé le congrès de la Société française de recherche opérationnelle et d'aide à la décision (ROADEF) du 26 au [11]. Le LIA a organisé, en , les conférences pour jeunes chercheurs MajecSTIC[12] et RJCP[13].

Le LIA est l'un des acteurs participant à Technolangue. Ce projet, créé à la suite d'un rapport du Conseil supérieur de la langue française remis à Lionel Jospin en , a pour objet la création et le suivi d'actions concernant le traitement informatique de la langue[14]. Le LIA fait également partie du projet ANR AVI-SON, dont le but est de concevoir une plate forme d'indexation automatique de documents audio-visuels concernant la formation des chirurgiens et élèves chirurgiens[15].

Thématiques de recherche

Les membres du LIA mènent chacun des activités de recherche, souvent en collaboration, sur plusieurs sujets, des sujets qui s’inscrivent dans cinq grandes thématiques.

Traitement du langage naturel

Les activités du LIA dans le domaine du traitement automatique du langage ont débuté dès la création du laboratoire. Les travaux initialement centrés autour du traitement de la parole se sont progressivement élargis vers le traitement du langage écrit, puis en modélisation du dialogue homme-machine ou encore vers l'analyse des contenus de l'Internet. Une part significative des travaux effectués s’inscrit dans des problématiques de recherche d'information. Le LIA est au carrefour de multiples approches (probabiliste, modèles de langage, machine learning), technologies (indexation multimédia, HMM, GMM, i-vecteurs, LSA, LDA, Deep Learning, analyse syntaxique) et communautés (AFCP, ISCA, ARIA, ATALA, ACM, ACL...). La couverture thématique par le LIA du domaine du traitement automatique du langage est large, et les recherches réalisées portent sur une grande variété d'objets linguistiques (parole lue ou spontanée, dialogues, textes courts/longs/collections, mono ou multilingues...) et paralinguistiques (authentification du locuteur, troubles de la voix et de la parole, qualité de voix, stress, attitudes...), diffusés au travers de médias variés (enregistrements audio ou vidéos radio ou télédiffusés, conversations téléphoniques, Internet...). Cette diversité des sujets d'études est abordée avec une culture scientifique et technologique principalement basée sur les statistiques bayésiennes, l'apprentissage et la classification automatique, la théorie de l'information. Enfin, les méthodologies mises en œuvre reposent le plus souvent sur des expérimentations sur corpus, le développement de systèmes et leur engagement dans des campagnes d'évaluation.

Différents aspects du traitement automatique de la parole (TAP) sont étudiés au LIA : reconnaissance de la parole (RAP), du locuteur, des langues, indexation audio, caractérisation de pathologies de la voix... Ces recherches s'appuient sur un environnement logiciel développé au LIA et librement distribuable, notamment SPEERAL (moteur de RAP sous licence LGPL) et MISTRAL Plateforme open source d'authentification biométrique). Le laboratoire est impliqué dans de nombreux projets collaboratifs nationaux et européens : Sumacc, OT-media, Decoda, PI, ASH, DesphoApady, RPM2, Avison, PERCOL.

Le LIA développe également des modèles de langage et de compréhension, en particulier dans les applications de dialogue. Un autre aspect des recherches réalisées porte sur la fouille des données audio (extraction d’entités nommées, d’opinions…) et sur la traduction automatique, thème pour lequel le LIA s'est engagé dans la campagne d'évaluation WMT 2011. Il a participé à des projets collaboratifs sur ce thème (projets européens LUNA et DIVINES, projets ANR Port-Media, Decoda).

Enfin, le LIA est actif dans le domaine du traitement automatique de la langue naturelle écrite (TALNE), plus spécialement sur les problèmes de Résumé automatique, compression automatique de phrases, Recherche d'information, Moteur de recherche, systèmes de question-réponse, Génération automatique de textes et Terminologie. Parmi ses réalisations, on peut citer le projet ANR RPM2, en collaboration avec Sinequa, Eurecom, Syllabs et Wikio. Le LIA a participé à des campagnes d'évaluations nationales et internationales sur les algorithmes de fouille de textes, d'apprentissage automatique et de classification automatique, parmi lesquelles on peut citer : Document Understanding Conferences (DUC), devenu Text Analysis Conference (TAC) et soutenu par le NIST[16] ; Text REtrieval Conference (NIST) ; Défi Francophone de Fouille de Textes (DEFT), lancé en 2005, où il s'est classé 1er en 2005, 2007, 2008 et 2010 ; et ESTER, campagne d'évaluation pour les systèmes de transcription de la parole et d'étiquetage par entités nommées.

Optimisation et recherche opérationnelle

L’optimisation discrète, ou la programmation en nombres entiers constitue le cœur de d'activité de cette thématique. Le LIA s’intéresse ainsi en particulier aux développements des méthodes polyédrales, à la programmation quadratique en variables binaires, à l'optimisation robuste ainsi qu'aux développements des méthodes méta-heuristiques. Les domaines d’application majeurs sont l’aménagement du territoire (problèmes de localisation), le transport (problèmes d’affectation quadratique), l’extraction et l’exploitation d’information et, enfin, l’ordonnancement. D'autres domaines de la recherche opérationnelle tels que la théorie des graphes, la théorie des jeux, la théorie des files d'attente et chaînes de Markov sont abordés en tant qu'outils de recherche.

Un consortium mené par le LIA et associant l'UMR Espace, l'IVT de Zurich (Institute for Transport Planning and Systems), le LMDAN (Laboratoire de Mathématiques de la Décision et d Analyse Numérique) et le LTI (Laboratoire de Traitement de l’Information) de Dakar a répondu avec succès au chalenge « Data for Development » avec le projet « Spatial Planning simulation and Optimization Technologies » (SPOT), et obtenu le prix "Data Crossing Prize"[17] (7-, MIT Medialab).

Réseaux informatiques

La thématique Réseaux s’intéresse aux aspects théoriques et pratiques de problèmes situés à l’interface des réseaux (télécommunications, transport et sociaux), de l’informatique et des mathématiques. Son domaine d’intérêt inclut la modélisation, l’optimisation, la vérification et la conception (afin de montrer leur faisabilité) des solutions ainsi que leur bon fonctionnement et/ou leur supériorité par rapport à l'existant. L’intérêt du LIA porte sur des solutions novatrices permettant de faire face au changement d'échelle et à la complexité des problèmes étudiés.

La théorie des jeux, l’optimisation multi-niveaux, la programmation linéaire en nombres entiers (PLNE), le contrôle optimal, les processus stochastiques, le « mechanism design » et les systèmes biologiques sont des exemples des domaines fondamentaux où s’inscrivent ses recherches. Ces modèles mathématiques permettent de cerner les limites de performance des réseaux, d’étudier les différents compromis qui en résultent et de concevoir des algorithmes et des mécanismes aptes à les gérer. Plusieurs domaines d’application sont pris en compte comme les réseaux cellulaires, les réseaux de transport, les réseaux optiques, les réseaux à connexion intermittente, les réseaux sociaux, les systèmes biologiques ainsi que les services sur l’Internet comme le vidéo streaming et le « caching ». Le laboratoire collabore avec l'INRIA de Sophia-Antipolis à travers des projets comme Networking Games And Biologically Inspired Networks financés par ARC Popeye.

Sociétés numériques

Internet, les réseaux sociaux, la SoLoMo (connectivité Sociale, géo-Localisation et Mobilité), les « data analytics » et le « big data » changent nos rapports à l'information, à la connaissance, à la culture et au travail et conduisent à une révolution des usages qui impacte en profondeur notre société. Sur le plan des modèles économiques, les changements sortent du champ déjà devenu traditionnel du commerce électronique pour se généraliser, impactant la majorité des secteurs dont, fortement, les industries culturelles. Comprendre et maîtriser ces mutations pour les anticiper et en tirer le meilleur parti dépend largement de la capacité des STIC à produire l'outillage méthodologique et technologique apte à rendre l'Internet utilisable et intelligible.

Dans ce cadre, Le LIA mène des projets qui se situent à l’interface entre l’homme dans la société et les réseaux qu’il entretient (réseaux sociaux d’internautes, d’experts, d’acteurs, de décideurs…) ou qu’il utilise (réseaux d’information, de capteurs, réseaux physiques urbains…). Le LIA est membre de la (S)FR Agorantic qui promeut des activités multidisciplinaires autour de l’axe identitaire « Culture, Patrimoines et Sociétés Numériques » de l’Université d’Avignon. Ces thèmes sont menés en collaboration avec d'autres laboratoires de l'Université, notamment en sciences humaines et sociales. Ils ont aussi conforté et développé des collaborations avec des laboratoires SHS hors UAPV, comme le LPL

Le projet ANR Galerie des festivals (GaFes), qui est porté par le LIA, est un bon exemple cette activité. L'ANR le finance à hauteur d'd'environ 800 k€, pour une durée de 54 mois. Il associe le LIA (porteur), le Centre Norbert Elias (SHS), l'Institut Eurecom, la société Syllabs (TALN) et le cabinet d'enquêtes GECE. Il concerne l'analyse et la ré-éditorialisation des traces que les festivals culturels laissent sur l'Internet.

Systèmes complexes

Cette thématique est largement transversale aux précédentes. Chacune des thématiques précédentes concerne des environnements composés de nombreuses entités dont les interactions produisent un comportement global difficile à déduire des entités élémentaires, ce qui est la définition même des systèmes complexes. Cette thématique s’attache à développer des outils et des méthodes permettant de décrire et de modéliser ces systèmes pour en comprendre le fonctionnement, en améliorer la conception et le contrôle, et/ou en prédire le comportement.

Dans cette thématique, le LIA a participé au projet européen FP7 FET Proactive CONGAS, qui a été jugé « Excellent » par le comité d'évaluation de la commission européenne[18]. Le LIA, avec ses partenaires (TuDelft, CREATE-NET, INRIA, Université de Pise, Technion, Imperial College London) a développé des approches originales issues de la théorie des jeux pour étudier les réseaux complexes. Ce projet a proposé une nouvelle théorie basée sur une approche multiniveaux pour étudier les systèmes complexes. Par sa taille et sa portée, ce projet a eu de grandes retombées pour le LIA.

Quelques chiffres

  • 40 thèses de Doctorat soutenues entre le 01/01/2011 et le 30/06/2016
  • Environ 20 articles publiés dans des revues scientifiques internationales majeures et 60 articles présentés dans des conférences internationales par année.
  • Participation à 21 projets et conventions industrielles, pour un total de 1,7 M€ sur la période 2012-2015.

Références

Lien externe

  • Portail de l’informatique
  • Portail d'Avignon
  • Portail des universités françaises
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.