Didier Girard | Devoxx

Didier Girard
Didier Girard Twitter

From SFEIR

Directeur des Opérations de SFEIR. Expert sur les technologies Cloud de Google. Bonne connaissance de Java. A fait une thèse sur ce que l'on appelle maintenant le machine learning.

Blog: https://plus.google.com/+DidierGirard

bigd Big Data & Analytics

Machine learning et régulation numérique

Conference

Le machine learning est la science qui permet à un algorithme d’apprendre sans avoir été explicitement programmé pour cela. Elle est utilisée par les acteurs de la nouvelle économie pour le traitement de gros volumes de données, dans la traduction automatique, la reconnaissance de la parole, la classification de consommateur, la construction de réputation, ou la prévision des trafics. C’est la “régulation numérique”.

Nous parlerons des champs d’application du machine learning par les gros acteurs du numérique, de ses fondements mathématiques, des grandes familles d’algorithmes et des outils disponibles pour mettre en pratique.

Découvrez les bases pour comprendre cette science et mesurer le potentiel des possibilités de son utilisation.

bigd Big Data & Analytics

"No one at Google uses MapReduce anymore" - Cloud Dataflow explained for dummies

Conference

Warning: this an an algorithmics talk, and it also involves parallel processing.

The MapReduce paper, published by Google 10 years ago (2004!), sparked the parallel processing revolution and gave birth to countless open source and research projects. We have been busy since then and the MapReduce model is now officially obsolete. The new data processing models we use are called Flume (for the processing pipeline definition) and MillWheel for the real-time dataflow orchestration. We are releasing them as a public tool called Cloud Dataflow which allows you to specify both batch and real-time data processing pipelines and have them deployed and maintained automatically - and yes, dataflow can deploy lots of machines to handle Google-scale problems.

What is the magic behind the scenes ? What is the post-MapReduce dataflow model ? What are the flow optimisation algorithms ? Read the papers or come for a walk through the algorithms with me.