/ SPEAKER
Software Engineer tombé dans la Data par accident, j'aime partager mes expériences passées, les patterns que j'ai rencontrés, certaines bonnes mais aussi beaucoup de mauvaises idées que j'ai pu avoir par le passé.
Qu'il s'agisse de sujets d'architecture de données, de bonnes et mauvaises pratiques avec Apache Kafka ou Apache Spark, de projets de migrations, tout est bon à partager et vulgariser pour que d'autres ne fassent pas les mêmes erreurs, gagnent du temps, ou se passionnent pour des sujets qui le méritent.
1930, un bureau miteux de downtown LA, devant vous deux dossiers ouverts:
- John Doe, né le 12 avril 1902, résidant sur la 5ème avenue
- Jhon G. Doe, né le 4 décembre 1902, localisé près de Manhattan
C'était sous vos yeux depuis le début :
Et si ces deux personnes n'en étaient qu'une seule ?
Avez-vous déjà essayé de fusionner plusieurs bases de données client ? Tenté de consolider un catalogue interne avec des données publiques ?
Alors vous avez été confronté à un problème d'Entity Resolution ! C'est normal : ce problème devient omniprésent à mesure que les données prolifèrent tandis que leur qualité reste inégale.
En pratique pourtant, les solutions se limitent souvent à des règles heuristiques fragiles...
Mais alors comment le résoudre correctement ?
En filant la métaphore de notre détective privé, nous partirons de notre intuition pour introduire la méthode d'Entity Resolution la plus répandue : le modèle de Fellegi-Sunter.
A l'aide d'un exemple concret et de la bibliothèque open source Splink, nous en explorerons les concepts de la théorie à la pratique.
L'objectif ? Démystifier des concepts parfois obscurs mais pourtant fondamentaux de Data Science.
Searching for speaker images...