GPT-4 se rapproche du niveau des experts dans ses évaluations ophtalmologiques

ADN

Tl;dr

  • L’IA GPT-4 d’OpenAI a rendu des performances comparables à des experts en ophtalmologie.
  • Cet exploit a été mesuré à travers un test de 87 questions.
  • GPT-4 a surpassé d’autres modèles d’apprentissage de langages et des médecins juniors.
  • Des risques et des inquiétudes persistent malgré ces résultats prometteurs.

L’IA d’OpenAI rivalise avec les experts en ophtalmologie

Selon une étude récente de l’Université de Cambridge, le GPT-4, un modèle d’apprentissage du langage (LLM) conçu par OpenAI, a réussi à rivaliser avec des experts en ophtalmologie.

Une performance remarquable

Dans cette étude, des chercheurs ont mis à l’épreuve plusieurs LLM, dont le GPT-4 d’OpenAI. Mais également son prédécesseur, le GPT-3.5, ainsi que le PaLM 2 de Google et le LLaMA de Meta. Les parties prenantes dans ce test ont été soumises à un examen blanc composé de 87 questions à choix multiples, portant sur différents aspects de l’ophtalmologie, allant de la sensibilité à la lumière aux lésions.

GPT-4 en tête de peloton

OpenAI GPT-4 s’est distingué en réalisant un meilleur score que PaLM 2, GPT-3.5 et LLaMA, mais également que les juniors médecins. En effet, il est parvenu à répondre correctement à 60 des 87 questions posées. Néanmoins, avec une moyenne de 66,4 bonnes réponses, les cinq experts ophtalmologistes ont gardé l’avantage.

Des résultats prometteurs, mais avec des réserves

Certes, ces résultats traduisent l’“avancée de l’intelligence artificielle et son potentiel dans le champ médical”, mais, ils sont loin de clore le débat sur les limites et risques des LLM. Les chercheurs soulignent que leur étude avait un nombre limité de questions, dont certaines catégories étaient plus présentes que d’autres, ce qui aurait pu influencer les résultats.

De plus, malgré leurs performances, les LLM ont tendance à “halluciner”, c’est-à-dire à inventer des faits. Un défaut sans conséquence dans certaines situations, mais qui peut être grave s’il s’agit d’un diagnostic médical. Enfin, les systèmes LLM manquent de nuance, ce qui peut créer des opportunités d’inexactitudes.

Lire la source


A lire aussi