/ SPEAKER
Développeur et architecte passionné depuis trois décennies, membre de la Fondation Apache. Je code sur les machines de toutes tailles, du microcontrôleur aux gros clusters.
Principal Engineer chez Elastic, Tech Lead dans l'équipe "Developer Tools" avec un focus sur Java et Rust.
Apache Arrow définit un format de données orienté colonnes permettant des traitements très performants et des échanges de données “zéro coût” sans sérialisation, avec des librairies officielles dans une douzaine de langages.
Depuis son apparition, un écosystème impressionnant s’est développé autour de Arrow : échanges réseau avec Arrow Flight, moteur SQL avec DataFusion, exécution distribuée… La plupart des outils d’analytics offrent aujourd’hui une intégration avec Arrow.
Je vous emmène à la découverte de Apache Arrow et de son écosystème à travers les étapes de son intégration dans Elasticsearch : utilisation de Elasticsearch avec Pandas en quelques lignes de Python, ingestion massive de données depuis des fichiers Parquet, exécution de requêtes SQL combinant des sources hétérogènes avec DataFusion. Et nous finirons par un "join" SQL entre Postgres et Elasticsearch !
Vous en repartirez j’espère avec la conviction qu’exposer vos données métier au format Arrow peut ouvrir de nouvelles voies pour leur valorisation !
Searching for speaker images...