Jean-Baptiste Note | Devoxx

Jean-Baptiste Note
Jean-Baptiste Note

From Criteo

Software Engineer @ Criteo

Blog: https://plus.google.com/101515196937296480690

bigd Big Data & Analytics

Anatomie de l'infrastructure de prédiction @Criteo: machine learning, log management, Hadoop.

Conference

Criteo affiche 2 milliards de bannières par jour. Elles nécessitent 15 millions de prédictions par seconde, qui génèrent à leur tour 950GB de données (compressées) par heure. Ces données sont digérées sur Hadoop pour finalement y appliquer des algorithmes de machine learning qui génèrent 1700 modèles de prédiction par jour, utilisés pour les prédictions suivantes. La boucle est bouclée! Nous décrirons en détail l'infrastructure qui permet d'enchaîner les étapes de ce traitement. Son état actuel sera remis dans la perspective des difficultés rencontrées, et nous évoquerons les évolutions futures.