Billet d'humeur - La question des hallucinations

22 mai 2023 La lettre de XMP-Consult

Vue 866 fois

Tout un chacun a sans doute tenté sa propre expérience et réussi à prendre en défaut ChatGPT. Mais qu’est-ce que cela prouve au juste ?

L’expression anthropomorphique « hallucinations » est rapidement devenue populaire pour désigner certains types d’erreurs des LLM (Large Language Models) lorsqu'il y a un décalage manifeste entre les sorties du modèle et la réalité : détails entièrement inventés, fausses références, contre-vérités évidentes.

Ces hallucinations montrent bien les limites intellectuelles des LLM. L’apprentissage sur des énormes bases de texte et leur très bonne mémoire associative leur permet de produire du contenu souvent cohérent sur n’importe quel sujet. Mais leur capacité de raisonnement est limitée et ils n’ont pas forcément de véritable compréhension de la réalité et des phénomènes qui justifient leurs croyances. Un peu comme des étudiants qui auraient appris leur leçon par cœur sans vraiment comprendre le fond (position notamment de Yann Lecun).

Il faut malgré tout noter que notre compréhension des mécanismes d’inférence des LLM est encore assez limitée, que la question des capacités de raisonnement est discutée et donc que tout cela dépendra beaucoup des recherches futures et des prochaines versions de LLM.

Pour revenir aux hallucinations, mon sentiment est que les erreurs relevées sur ChatGPT donnent peu d'informations utiles pour anticiper l'impact à plus long terme de ce type de technologie. Une analogie que je trouve assez parlante est de voir un LLM comme une boîte à outils qui permet de réaliser un grand nombre de tâches très différentes (NB : la différence la plus fondamentale entre cette génération d’IA et les précédentes est sans doute une plus grande capacité de généralisation). Beaucoup d’hallucinations relayées massivement me font penser à quelqu’un qui sortirait un tournevis pour taper sur un clou avant de crier « Ah ah, ça ne marche pas du tout ! ».

Pour mieux comprendre les impacts possibles, il faudrait en quelque sorte inverser la charge de la preuve : plutôt que de chercher à répondre à la question « Est-ce que GPT sait répondre à mon problème quelle que soit la manière dont je l’utilise ? », il faudrait travailler sur la question « Est-ce que pour mon problème il existe un LLM et une façon de l’utiliser qui donne des réponses pertinentes ? » Dans ce dernier cas, on pourra utiliser un LLM spécialement conçu pour le besoin particulier (prompt tuning, fine tuning sur des tâches précises, RLHF, intégration dans des produits plus complexes avec plusieurs couches, étapes de contrôle qualité…).

Gardons en tête que ChatGPT est un outil expérimental dont l’objectif est de montrer au grand public les capacités des LLM sans produire de contenus racistes. A ce titre, difficile de considérer qu’il ne remplit pas sa fonction.

Pour ce qui est des autres applications, beaucoup de projets sont en cours, des investissements importants ont été mis sur la table et on aura probablement bientôt plus de données.

Partagez :

News

Billet d'humeur - La question des hallucinations

Aucun commentaire

Partagez :

Connexion via

Connexion

News