Comment savoir si ton chatbot IA hallucine
Ton chatbot raconte n'importe quoi à tes clients depuis mardi. Comment détecter les hallucinations, les mesurer, et les corriger avant que ça tourne mal.
Mardi dernier, un utilisateur t'envoie un screenshot. Ton chatbot de support a inventé une politique de remboursement qui n'existe pas. Il a cité un article de ta FAQ qui n'a jamais été écrit. Et il l'a fait avec une confiance absolue.
Bienvenue dans le monde des hallucinations IA.
Qu'est-ce qu'une hallucination IA ?
Une hallucination, c'est quand un modèle de langage génère une réponse qui semble correcte et cohérente, mais qui est factuellement fausse. Le modèle ne "ment" pas intentionnellement — il produit la suite de tokens la plus probable, même si cette suite ne correspond à aucune réalité.
Pourquoi c'est dangereux en production
- Confiance brisée — tes utilisateurs font confiance à ton chatbot. Une fausse info peut les induire en erreur.
- Risque juridique — un agent qui promet un remboursement inexistant engage ta responsabilité.
- Effet silencieux — contrairement à un crash, personne ne te prévient. L'agent continue de répondre normalement.
Comment détecter les hallucinations
Méthode 1 : LLM-as-judge
Tu utilises un second LLM pour évaluer les réponses du premier. C'est la méthode utilisée par Datadog et Galileo AI. Efficace, mais coûteux (tu payes deux fois les tokens) et pas accessible si tu n'es pas développeur.
Méthode 2 : Comparaison avec la knowledge base
Chaque réponse de l'agent est comparée aux documents sources. Si l'agent affirme quelque chose qui n'est pas dans la base de connaissances, c'est une hallucination potentielle.
Méthode 3 : Monitoring du taux d'hallucination
Plutôt que de vérifier chaque réponse individuellement, tu monitores le taux global. Un taux d'hallucination qui passe de 1% à 8% en 12h est un signal d'alarme clair, même si tu ne vérifies pas chaque réponse.
Les signaux d'alerte
- Le taux d'hallucination augmente soudainement (souvent après une mise à jour du modèle)
- L'accuracy globale chute sous 90%
- Les utilisateurs signalent des réponses incorrectes
- L'agent cite des sources ou des pages qui n'existent pas
Ce que fait Last 20%
Sur les plans Pro et Scale, Last 20% monitore le taux d'hallucination de tes agents en continu. Si le taux dépasse un seuil, tu reçois une alerte immédiate. Sur le plan Scale, un expert peut intervenir pour corriger le prompt ou ajuster la configuration.
Ce genre de problème ne devrait jamais arriver.
Avec le monitoring Last 20%, on détecte les problèmes avant tes utilisateurs. Uptime, sécurité, agents IA — tout est surveillé 24/7.