Données massives

Séance du 16 janvier 2014 (13h30 – 17h30) : Données Massives (Big Data) (Affiche à télécharger ICI)

Les données massives (ou Big Data) se caractérisent par une volumétrie importante, une variété des types de données, et une grande vitesse de génération, souvent en flux tendu. Leur utilisation nécessite donc une (r)évolution dans les méthodes d’acquisition et de traitement analytique. Ainsi, côtoyer les téra-data, dialoguer avec Hadoop, accéder aux données ouvertes (Open Data) ou jongler avec les flux d’information font maintenant partie des compétences nécessaires pour traiter ces données.

De profils différents, les orateurs nous feront partager leur vision des Big Data, par la présentation de méthodes, d’applications et d’expériences mises en œuvre sur différents logiciels.

Programme :
– Défis pour la fouille de données dans le Big Data (Georges Hébrail, EDF R&D) PDF
– Panorama des solutions analytiques existantes (Julien Damon, Arnaud Laroche, Bluestone) PDF
Comparaison Open-Source vs Commercial sous l’angle des usages (productivité pour l’analyste) et de la couverture fonctionnelle (diversité des méthodes supportées)
– Implémentation et benchmark de solutions en régression linéaire (Anne Gayet, AID) PDF
Implémentation d’une régression linéaire sous hadoop avec rmr2, benchmark des résultats avec des outils alternatifs : RevoScaleR en mode distribué, R et SAS dans une approche traditionnelle
– S’attaquer au Big Data avec Hadoop et l’intégration Open Source (Cédric Carbone, Talend)
– Le Big Data au service du commerce (Joannès Vermorel, Lokad) PDF