/ SPEAKER
Responsable technique d'une équipe de Data Scientists chez Mirakl
Les différents cas d’usages de modèles d’IA et de GenAI en production sont sujets à des contraintes de déploiement spécifiques qui nécessitent des approches adaptées. Par exemple, pour un cas d’usage e-commerce basse latence, nous avons déployé nos modèles sur KServe, une solution cloud-native qui exploite Kubernetes pour permettre une colocalisation efficace et optimiser les coûts. À l’opposé, pour un cas d’usage de transformation de catalogues avec des modèles LLM fine-tunés, nous avons réussi à intégrer une architecture Multi-LoRA sur Anyscale grâce à RayLLM, répondant à des besoins de traitement à haut volume avec coût maîtrisé.
Cette présentation abordera ces deux approches distinctes en mettant en lumière les défis techniques, les critères de choix des solutions et les enseignements tirés pour optimiser le déploiement et l’orchestration de modèles d’IA selon leurs contraintes spécifiques en production
Searching for speaker images...