13ème édition – du 16 au 18 avril 2025
3 jours de conférences, 70 exposants, 4500 visiteurs par jour
Sylvain Wallez
Elastic

Développeur et architecte passionné depuis trois décennies, membre de la Fondation Apache. Je code sur les machines de toutes tailles, du microcontrôleur aux gros clusters.

Principal Engineer chez Elastic, Tech Lead dans l'équipe "Developer Tools" avec un focus sur Java et Rust.

View
Apache Arrow, l’analyse de données haute performance et interopérable
Conference (INTERMEDIATE level)
Amphi bleu

Apache Arrow définit un format de données orienté colonnes permettant des traitements très performants et des échanges de données “zéro coût” sans sérialisation, avec des librairies officielles dans une douzaine de langages.

Depuis son apparition, un écosystème impressionnant s’est développé autour de Arrow : échanges réseau avec Arrow Flight, moteur SQL avec DataFusion, exécution distribuée… La plupart des outils d’analytics offrent aujourd’hui une intégration avec Arrow.

Je vous emmène à la découverte de Apache Arrow et de son écosystème à travers les étapes de son intégration dans Elasticsearch : utilisation de Elasticsearch avec Pandas en quelques lignes de Python, ingestion massive de données depuis des fichiers Parquet, exécution de requêtes SQL combinant des sources hétérogènes avec DataFusion. Et nous finirons par un "join" SQL entre Postgres et Elasticsearch !

Vous en repartirez j’espère avec la conviction qu’exposer vos données métier au format Arrow peut ouvrir de nouvelles voies pour leur valorisation !

More

Searching for speaker images...

fr_FRFrançais