Hayssam Saleh | Devoxx

Hayssam Saleh
Hayssam Saleh Twitter

From ebiznext

Apache Spark Certified Developer, Hayssam Saleh is Senior Architect with a focus on fault tolerant distributed systems and Web applications. He is currently the technical lead at EBIZNEXT where he supervises Scala / NoSQL projects since early 2012. He holds a PhD in distributed computing from Université Pierre et Marie Curie (Paris VI).

Blog: http://blog.ebiznext.com

bigd Big Data & Analytics

Initiation à Spark avec Java 8 et Scala

Hand's on Labs

Apache Spark se présente comme la nouvelle génération de moteur de calcul distribué qui remplace progressivement Hadoop/MapReduce.

L'objet de ce Hands-on Labs est de vous familiariser par la pratique au traitement massif et distribué dans le domaine du data crunching et du machine learning. A l'issue de cette session, vous serez familiers avec :

  • Les Resilient Data Sets (RDD) qui désignent l’abstraction essentielle pour la manipulation distribuée des données.
  • les patterns de transformations et d'actions offerts par l'API
  • les API de chargement et de stockage de données - filesystem / hdfs / NoSQL(Elasticsearch et Cassandra)
  • Les bonnes pratiques de programmation distribuée avec la mise en oeuvre du partitionnement sélectif et l'usage de variables partagées (accumulators et broadcast variables)
  • l'analyse et le reporting via Spark SQL
  • l'analytique temps-réel avec Spark Streaming

Les prérequis à installer :

bigd Big Data & Analytics

Machine Learning avec Spark, MLLib et D3.js

Conference

Cette conférence a pour objet de partager avec les participants le processus d'intégration d'un système de Machine Learning (ML) dans une application Java / Scala. Elle s'adresse aux développeurs qui souhaitent inclure des services de recommandation en ligne, d'analyse de risque ou d'intelligence client mais qui n'ont pas de connaissances particulières en ML. Nous aborderons :

  • Le processus global : Choix des échantillons d'apprentissage et de test, sélection de l'algorithme de machine learning, évaluation et optimisation du modèle

  • La préparation de l'échantillon de données : Les critères de choix des données à collecter, le volume à injecter, les transformations à réaliser en amont de l'application de l'algorithme de ML

  • La sélection et la construction du modèle : Cette section parcoure les catégories d'algorithmes disponibles dans MLLib et présente les principales règles de sélection et d'ajustement en fonction de l'objectif.

  • L'évaluation et l'optimisation du modèle : Cette section présente les métriques d'évaluation de la performance prédictive des modèles ML ainsi que les diagrammes D3.js de visualisation adaptés.