IFTTD - If This Then Dev

#338.src - Evaluation de GenAI: Pourquoi l'évaluation de l'IA n'a rien d'automatique avec Louis Pinsard

Informações:

Sinopse

"La solution à tout, pour moi, c'est une complémentarité de technologie. Mais pour ça, il faut comprendre les limites de chacune." Le D.E.V. de la semaine est Louis Pinsard, cofondateur et CTO chez Dialog. On plonge dans les coulisses de l'évaluation des modèles d'intelligence artificielle générative appliqués au e-commerce. Louis partage comment son équipe adapte tests A/B, datasets et observabilité pour améliorer les performances des assistants IA. Ils abordent la difficulté des tests unitaires face au non-déterminisme des LLM et la nécessité de nouvelles pratiques, notamment contre les hallucinations. Un échange pragmatique sur l'humain derrière la tech et l'importance de garder un esprit critique face à la hype GenAI.Chapitrages00:01:00 : Introduction à l'IA Générative00:01:30 : Présentation de Louis00:01:53 : &Ecirctre AI First00:05:10 : &Eacutevaluation des Modèles00:09:09 : Outils d'Observabilité00:09:53 : Tests Unitaires en IA00:12:28 : Agents et Workflow00:17:55 : &Eacutevaluation des Ré