L’intelligence artificielle va-t-elle permettre aux non-ophtalmologistes de diagnostiquer un œdème papillaire ?

Neuro-ophtalmologie

La détection d’un œdème papillaire (OP), ou à l’inverse la capacité à établir la normalité de la papille, sont essentielles pour le bilan de nombreuses situations cliniques neurologiques (céphalées, troubles de conscience…). Toutefois, ce savoir-faire est très limité chez les non-ophtalmologistes et pour cause : l’utilisation d’un ophtalmoscope est délicate et nécessite formation et pratique, et quand bien même les collègues utiliseraient un rétinographe, aussi pratique soit-il, c’est l’interprétation du cliché qui poserait problème…
A l’instar d’autres pathologies où la composante ophtalmologique n’est qu’un aspect du problème, et où l’accès à l’ophtalmologiste n’est pas toujours facile et/ou immédiat (on pense bien sûr à la rétinopathie diabétique), il s’agit là typiquement d’une situation pour laquelle l’intelligence artificielle (AI) serait particulièrement utile pour améliorer et/ou faciliter la prise en charge des patients.
C’est tout l’objet de la publication de Dan Milea, désormais en poste à Singapour, et du groupe BONSAI, (Brain and Optic Nerve Study with Artificial Intelligence). Les auteurs constituaient une première base de données de rétinophotographies pour « entrainer et qualifier » le système de reconnaissance des images par AI. Les clichés provenaient de différents pays, donc avec des patients d’origines ethniques et d’âges très variés, et avaient été réalisés avec de nombreux modèles de rétinographes. Ils étaient centrés sur la macula ou le nerf optique, mais toujours acquis après dilatation pupillaire. Les photos de mauvaise qualité (troubles des milieux, mauvaise mise au point, cadre coupant le nerf optique) étaient exclues. Cette base de données comportait des photos i) de nerfs optiques normaux (N=9156), ii) d’OP liés à une hypertension intracrânienne (N=2148) ou iii) d’autres anomalies du nerf optique (drusens, neuropathie ischémique, atrophie, anomalies congénitales…, N=3037), sachant que toutes les papilles anormales avaient fait l’objet d’une expertise neuro-ophtalmologique avec tous les examens complémentaires nécessaires à un diagnostic de certitude.
Une seconde base de données, constituée selon les mêmes critères, mais avec des images en provenance d’autres centres (1505 clichés, dont 613 papilles normales, 360 OP et 532 autres anomalies papillaires) était destinée à tester la validité du système.


  

Les auteurs ont calculé ensuite les performances du test sur la base de données d’entrainement, et sur la base de données de validation pour 3 requêtes :
1)    Distinguer les papilles normales des anormales (OP et autres anomalies)
2)    Différencier les OP des autres papilles (normales et autres anomalies)
3)    Différencier les autres anomalies papillaires des OP et des papilles normales.
Les performances intrinsèques du test qui étaient étudiées comprenaient la sensibilité, la spécificité, l’aire sous la courbe ROC (AUC, donnant une mesure agrégée de la capacité du test à classer), la précision du test (rapports des résultats justes sur l’ensemble des résultats du test).
Les auteurs fournissaient également la valeur prédictive positive et négative du test (VPP et VPN), qui dépendent de la fréquence des anomalies dans les sets de données.
Le lecteur l’aura bien compris, cela fait beaucoup de chiffres, certes tous très instructifs, mais nous n’aborderons ici que ceux qui nous ont paru essentiels, à savoir, certaines performances du test sur la base de données de validation.
La sensibilité et la spécificité pour différencier OP des autres papilles (requête 2) étaient respectivement de 96,4 et 84,7%. Les AUC pour les requêtes 1,2 et 3 étaient de 0,98, 0,96 et 0,90, respectivement. La précision du test pour détecter les papilles normales, les OP et les autres anomalies papillaires était de 92%, 87%, et 81%, respectivement. Sachant que la prévalence de l’OP dans la base de données de validation était de 9,5%, la VPP pour la détection d’un OP était de 40%, et la VPN de 99,6%.
Nous retiendrons de ces chiffres que ce système (qui n’est pas le premier, mais qui est celui dont la base de données d’entrainement est de très loin la plus solide) est très sensible, et qu’un résultat normal exclut de manière quasi certaine une anomalie, quelle qu’elle soit. A l’opposé, vu la faible prévalence de l’OP dans la vraie vie, un résultat anormal ne peut pas être classé en OP ou autre anomalie de façon sûre.
Au final, cela constitue déjà une avancée majeure, car ce « dépistage » permet de réduire de façon très conséquente la nécessité du recours à une expertise ophtalmologique pour examiner le fond d’œil. Ensuite, on peut critiquer certains aspects méthodologiques, comme l’utilisation de clichés de rétino-photographies mydriatiques, certes nécessaires pour avoir des images de bonne qualité, mais contraignantes et avec un double problème potentiel lié à la mydriase pharmacologique : 1) le risque de crise de fermeture de l’angle en cas d’angle étroit, et 2) l’impossibilité de surveiller le jeu pupillaire, pourtant si important dans certains contextes neurologiques ou neuro-chirurgicaux… Heureusement, on imagine facilement les solutions technologiques qui viendront corriger cet aspect.

 

 

 

Milea D, Najjar RP, Zhubo J, & BONSAI Group. Artificial Intelligence to Detect Papilledema from Ocular Fundus Photographs. N Engl J Med. 2020 Apr 30;382(18):1687-1695.

 

Reviewer : Antoine Rousseau, thématique : neuro-ophtalmologie, imagerie.