Outils pour la Data Science

Rendez-vous sera sur les outils pour la Data Science, le jeudi 7 avril 2016.

La science des données (ou Data Science) est une discipline récente, incluant à la fois les aspects d’apprentissage (statistique et machine learning), les aspects gestion et traitement de données massives et/ou complexes. Elle apparaît de plus en plus présente dans le milieu professionnel, avec l’avènement du Big Data, des capacités nombreuses de stockages de l’information et de la volonté d’en tirer des connaissances. Ceci nécessite d’avoir des outils performants et adaptés pour pouvoir traiter ce flux de données dans des temps raisonnables.

De profils différents, les orateurs nous feront partager leur expérience autour de la science des données et l’utilisation des outils dédiés, par la présentation de méthodes, d’applications et d’expériences mises en œuvre sur différents logiciels.

Programme

  • Julien Blaize, Coheris SPAD (présentation)
    • Titre : Comment le data mining a influencé l’évolution des architectures Big Data ?
    • Résumé : Nous nous proposons de répondre à cette question en détaillant comment les différents outils ont d’abord tenté d’adapter les algorithmes au MapReduce et en ont même créé de nouveaux plus à même de traiter la volumétrie. Cependant tous les algorithmes ne peuvent pas être adaptés à ce cadre. Se heurtant à ce problème, et grâce aux progrès considérables du monde informatique, le mode In memory a pu se développer. Nous montrerons au travers d’exemples comment cette évolution force l’utilisateur a choisir le point d’équilibre entre performance et interprétabilité.
  • Marc Wolff, MathWorks
    • Titre : Analyse statistique d’images satellite haute résolution
    • Résumé : La réalisation d’analyses statistiques sur des images satellites se heurte régulièrement à des volumétries de données importantes et à des temps de calculs prohibitifs. Nous présenterons une étude de cas (calcul de caractéristiques géostatistiques de zones urbaines) au cours de laquelle de telles analyses ont été rendues possibles grâce à des techniques de programmation parallèle et distribuée (paradigme Single Program Multiple Data ou SPMD).
  • Pascal Bizzari, AVISIA (présentation)
    • Titre : Mise en place d’une démarche de Machine Learning sous SAS In Memory Statistics
  • Christophe Genolini, Paris X (présentation)
    • Titre : Enquête au cœur de la haute performance…
    • Résumé : Big data… Tout le monde en parle, beaucoup disent qu’ils en font, mais personne ne s’accorde sur la définition. En statistique, les big data commencent à une dizaine de Giga. En informatique, la limite serait plutôt de l’ordre de 10 téra… Mille fois plus ! Pourquoi un tel écart ? Nos enquêteurs ont voulu savoir. Gestion de la mémoire, carte graphique, interface, lecture des disques durs… Ils ont tout décortiqué, parfois au péril de leur vie ! Et de fil en aiguille, ils ont découvert un incroyable secret : la haute performance n’est pas un mythe, elle est a portée de main ! « Enquête au cœur de la haute performance… » où l’incroyable histoire vraie d’une investigation aux limites de l’infiniment rapide. Le 7 avril sur vos écrans.
  • Anne GAYET, A.I.D Add Intelligence to Data (présentation)
    • Titre : SPARK, framework de traitement et analyse distribués
    • Résumé : Nous présenterons le framework Spark, ses fondements et ses structures de données, ce qui nous permettra de voir en quoi Spark est différent et indépendant d’Hadoop. Pour l’exemple, nous montrerons comment déterminer les parcours de visite les plus probables à partir de données de navigation web. Cette démonstration réalisée via un notebook nous permettra de bien comprendre les étapes d’un traitement batch en scala et le requêtage en Spark SQL. Enfin nous ferons le point sur les capacités d’analyse apportées par Spark, MlLib et SparkR.