Analyse de textes

Rendez-vous sur l’Analyse de textes, le Mardi 17 Octobre 2017.

Les données informatiques non structurées, dont les textes, envahissent notre quotidien. La puissance de l’outil informatique et la multiplication de données à disposition a permis le développement de méthodes plus complexes permettant d’extraire automatiquement de l’information et du sens d’un grand nombre de données textes : l’analyse textuelle. En 2013, les Rendez-vous avez déjà exploré ce domaine, quatre ans après qu’en est-il ?

De profils différents (universitaire, chef de projet, éditeur de logiciels,…), les orateurs nous feront partager leur vision de l’analyse de textes par la présentation de méthodes, d’applications et d’expériences mises en œuvre sur différents logiciels.

Programme

  • 13h30-14h10 : Julien BLAIZE, Coheris-SPAD)
    • Titre: Le module de text mining de SPAD pour un projet RGPD
    • Résumé : Après une démonstration du text mining de Spad 9, nous montrerons comment ce module a permis à notre équipe Data de détecter les données sensibles présentes dans des champs texte libres. Ces données sont interdites par la CNIL et la mise en place prochaine du Règlement Général sur la Protection des Données (RGPD) ne fera qu’amplifier la nécessité de répondre à cette problématique. Nous expliquerons ensuite comment la solution est industrialisable pour passer du traitement a posteriori à l’action préventive au moment de la saisie.
  • 14h10-15h00 : Juliette TISSEYRE, CodeCase Software
    • Titre : Du Text Mining au Code Mining
    • Résumé : L’analyse de texte nous fournit des techniques pour extraire l’information de documents. On peut très bien s’imaginer appliquer ces techniques à une forme moins conventionnelle de texte : le code source. Les applications du Code Mining seraient d’ailleurs les mêmes qu’en Text Mining : génération de code, traduction automatique dans un autre langage, extraction de logique métier…
      En partant de ce que l’on sait du Text Mining, nous allons voir dans cette présentation quels sont les parallèles entre les langages naturels et les langages de programmation mais aussi leurs divergences structurelles et comment les particularités des langages informatiques influent sur la manière de préparer puis traiter automatiquement du code source.
  • 15h00-15h30 : Pause
  • 15h30-16h10 : Laurent VANNI, CNRS – UMR 7320 : Bases, Corpus, Langage
    • Titre : Logometrie et Deep Learning : Analyse du discours des candidats de la campagne présidentielle 2017
  • 16h10-17h00 : Milla BOUCHET-VALAT, Ined
    • Titre : Rtemis