
Ce problème s'étend à d'autres branches de ce secteur, comme l'arithmétique et la géométrie, et réside principalement dans l'utilisation du langage naturel pour lui poser une question, puisque si nous entrons une opération simple via des nombres, ses résultats seront similaires à ceux d'une calculatrice. Mais tout change si nous le faisons avec un langage naturel.
Pourquoi ChatGPT a des limitations en mathématiques
Bien que l'informatique ait historiquement été utilisée pour résoudre des problèmes mathématiques complexes, la situation avec des modèles de langage comme ChatGPT est différente. À première vue, ce chatbot semble bien gérer les calculs simples s'ils sont formulés en termes numériques. Mais si le problème est présenté en langage naturel, les résultats sont erratiques. Cela est particulièrement notable pour les problèmes plus complexes, où l'IA échoue lamentablement.

Un des facteurs qui expliquent cette incapacité est le processus de tokenisation, une technique utilisée par les modèles d'IA pour diviser le texte en parties plus petites ou “tokens”. Ce processus fonctionne bien pour les mots, où les tokens peuvent représenter des syllabes ou fragments de mots, mais devient problématique lorsqu'il est confronté à des nombres.
Par exemple, un nombre comme “380″ peut être interprété par le modèle comme un seul token, tandis que “381″ pourrait être divisé en deux parties, “38″ et “1″. Ce manque de cohérence fait que les modèles perdent les relations mathématiques entre les chiffres, ce qui génère des erreurs dans les calculs.
Cependant, la tokenisation n'est pas le seul problème. ChatGPT et d'autres IA sont, essentiellement, des machines statistiques qui sont entraînées pour détecter des motifs dans de grandes quantités de données. Cela signifie que, lorsque le chatbot est confronté à un problème mathématique, il ne réalise pas les calculs de la manière dont le ferait une calculatrice, mais tente de prédire la réponse sur la base d'exemples qu'il a vus lors de son entraînement.
Cela peut générer des succès partiels, mais aussi des erreurs graves, surtout dans les problèmes qui impliquent plusieurs étapes intermédiaires, comme dans la multiplication de grands nombres.

Une étude réalisée par Yuntian Deng, professeur à l'Université de Waterloo, a montré que ChatGPT, dans son modèle GPT-4o, a un taux de précision inférieur à 30% pour résoudre des problèmes de multiplication avec plus de quatre chiffres. Cela est dû au fait que toute erreur dans une étape intermédiaire peut affecter drastiquement le résultat final.
Selon Deng, ce est l'une des principales raisons pour lesquelles les modèles de langage échouent en mathématiques : ils ne suivent pas la même approche séquentielle que nous utilisons, nous les humains, pour résoudre des problèmes.
Quel type d'erreurs ChatGPT a-t-il tendance à faire en mathématiques
Un exemple pratique de cette limitation a été exposé par le professeur Paul T. von Hippel, de l'Université du Texas à Austin, dans un article publié dans The Wall Street Journal. Von Hippel a utilisé ChatGPT pour résoudre un problème mathématique lié au théorème de Pythagore. Bien que le chatbot ait pu définir le théorème et donner des exemples, il a commis des erreurs simples dans les calculs en élevant un nombre au carré, ce que n'importe quelle calculatrice basique peut faire sans problème.
Ce type d'erreur est récurrent. Un exemple concret impliquait un problème apparemment simple : “Une boîte contient 6 bananes et 2 kilos de pommes. Si chaque pomme pèse 200 grammes, combien de fruits y a-t-il dans la boîte ?” Lorsque cette question a été posée à ChatGPT, la réponse était incorrecte.

Le chatbot a correctement calculé que 2 kilos de pommes équivalaient à 2 000 grammes, mais n'a pas divisé cette quantité par les 200 grammes que pèse chaque pomme pour déterminer le nombre total de fruits. À la place, il s'est concentré sur l'addition des poids et a conclu qu'il y avait 2,6 kilos de fruits, supposant incorrectement le poids des bananes. La réponse correcte aurait dû être 16 fruits : 6 bananes et 10 pommes.
Ce type d'erreurs est dû, en partie, à l'incapacité de ChatGPT à comprendre pleinement le langage naturel lorsqu'il s'agit de problèmes mathématiques. L'IA n'arrive pas toujours à interpréter correctement ce qui lui est demandé, ce qui affecte ses performances dans des situations nécessitant un raisonnement mathématique. Ce n'est que lorsque l'on a spécifié de manière claire qu'il devait déterminer le nombre d'unités de fruits dans la boîte que ChatGPT a pu résoudre le problème correctement.
Malgré les limitations actuelles, il y a de l'espoir que les modèles d'IA puissent s'améliorer à l'avenir en matière de capacités mathématiques. Des modèles plus récents, comme le GPT-4 d'OpenAI, ont montré des améliorations significatives en abordant des problèmes mathématiques de manière plus logique et séquentielle.
Au lieu de simplement prédire la réponse en fonction des motifs, ces modèles raisonnent étape par étape, ce qui augmente la probabilité d'arriver à la solution correcte. Deng et d'autres chercheurs pensent qu'avec le temps, les problèmes mathématiques, en particulier ceux liés à la multiplication et à l'arithmétique complexe, pourraient être résolus complètement.