Aide au diagnostic par internet : pour le meilleur ? seulement ?

On sait bien qu’un grand nombre de patients, ou leur famille, consulte les sites médicaux sur Internet à la recherche d’informations sur leur maladie et les traitements possibles. Depuis quelques années, tout spécialement dans le monde anglo-saxon, se sont développés des sites ouverts à tous, basés sur des algorithmes décisionnels informatisés, dont le but est de proposer un ou plusieurs diagnostics en fonction des antécédents et des symptômes renseignés par le patient. Les sites les plus performants sont en outre capables d’indiquer quel est le niveau d’urgence pour consulter.

Ces sites, appelés couramment « vérificateurs de symptômes en ligne » (VSL), ont donc pour capacité finale de réaliser aussi un triage des patients, et dans un mode idéal, ils pourraient participer de façon très efficace à l’organisation des soins. Mais sous réserve qu’ils soient fiables, évidemment, car tout dysfonctionnement important pourrait soit générer un retard à la prise en charge d’une maladie grave, soit inquiéter de façon inappropriée.

L’enjeu médical, et accessoirement économique, est déjà important, car aux USA, 6 patients sur 10 commencent par consulter Internet avant de demander son avis à un professionnel de santé.

Pour se faire une idée de la fiabilité des diagnostics proposés, Shen et ses collaborateurs ont mis à l’épreuve WebMD, le site le plus consulté aux USA en la matière. Ils ont tout d’abord imaginé 42 cas cliniques factices, sensés explorer une grande partie du spectre des maladies oculaires, dont des situations urgentes (comme le décollement de rétine) ou d’autres qui ne nécessitaient aucun recours rapide à un médecin (comme la sècheresse oculaire, par exemple). Un médecin et un non-médecin se sont chargés, indépendamment, de répondre au questionnaire proposé par WebMD, cas par cas, pour tester la fiabilité de système en fonction du niveau de connaissance de la personne qui le sollicitait. Si cela n’avait pas d’influence sur la qualité des diagnostics proposés, les résultats globaux n’en n’étaient pas moins mitigés, voire très décevants.

Pour chaque situation clinique, une moyenne de 26,8 possibilités diagnostiques étaient proposées… Parmi elles, la véritable maladie sous-jacente n’était indiquée comme diagnostic principal que dans 26% des cas, et n’était listée parmi les 3 diagnostics les plus probables que dans 40% des cas. A l’inverse, l’algorithme informatique méconnaissait totalement le diagnostic dans 43% des cas, malgré la liste pourtant longue de ses propositions. En d’autres termes, la machine ne trouvait le bon diagnostic que dans un quart des cas, ne l’évoquait que dans deux cas sur cinq, et le loupait entièrement dans la moitié des cas.

En ce qui concerne la différence entre les situations urgentes ou pas, les résultats étaient encore plus inquiétants. En effet, si le diagnostic correct était effectivement reconnu parmi les 3 plus probables dans 88% des situations non urgentes, le taux de réponse adaptée n’était que de 39% dans les situations urgentes. Pour les autres patients, le diagnostic était totalement méconnu dans 79% des cas, ce qui aurait conduit dans la vraie vie à ne pas conseiller une consultation en urgence.

On peut évidemment se dire que cette étude a pour limite principale de n’avoir testé qu’un seul des sites de VSL ophtalmologiques, mais les auteurs expliquent qu’il s’agit du plus utilisé par la population nord-américaine, et d’après eux, le plus robuste d’après les tests préliminaires qu’ils avaient pratiqués. Pour autant, ce site ne faisait pas plus mal en ophtalmologie que d’autres capables de gérer les diagnostics des autres spécialités. Les résultats retrouvés par Shen et al. sont très proches d’une autre étude, publiée par Semigran et al., qui avaient interrogé 23 VSL différents, consacrés à la médecine générale, à propos de 45 cas simulés. Dans cette étude de plus grande envergure, le bon diagnostic n’était trouvé que dans 34% des cas, et n’était évoqué parmi les 3 principaux que dans 54% des cas (Semigran HL et al. Evaluation of symptom checkers for self diagnosis and triage: audit study. BMJ. 2015;351:h3480. doi: 10.1136/bmj.h3480).

On remarque aussi que dans l’étude de Shen et al, l’algorithme n’a pas été mis en concurrence avec de vrais docteurs. Ces derniers auraient aussi pu commettre des erreurs, mais on peut espérer que les situations urgentes auraient été identifiées avec plus d’efficacité. D’ailleurs, Semigran et al. avaient soumis ces mêmes 45 cas cliniques à 324 médecins (généralistes, internistes ou pédiatres), et la maladie était alors correctement identifiée dans 72% des cas et citée parmi les 3 diagnostics principaux dans 84% des cas (Semigran HL, et al. Comparison of physician and computer diagnostic accuracy. JAMA Intern Med. 2016;176(12):1860-1861. doi:10.1001/jamainternmed.2016.6001).

Comme le souligne Khurana, qui signe un très bon commentaire sur l’étude de Shen, il est fort possible que les performances des VSL s’améliorent dans un avenir proche, lorsque l’intelligence artificielle leur servira pleinement, puisque chaque patient pourra participer à l’amélioration du système en informant, a postériori, sur le diagnostic réel (et même l’évolution).

Le principe de l’intelligence artificielle étant de progresser de façon autonome dans ses acquis grâce à l’expérience accumulée, on peut alors imaginer combien ces systèmes informatisés pourraient jouer, à terme, un rôle majeur dans le triage des patients.

On peut même aller plus loin en imaginant qu’ils pourraient être utilisés par des organismes académiques ou privés pour organiser automatiquement la liste des rendez-vous des médecins, voire des interventions chirurgicales, en fonction des besoins réels des patients.

On ose aussi imaginer ce que pourraient en faire les systèmes d’assurance si le passage par ces algorithmes devenait obligatoire pour bénéficier de leurs prestations…

En espérant que les garde-fous indispensables en matière d’utilisation éthique de ces sites seront d’ici là mis en place, on peut aussi miser sur l’optimisme de Khurana lorsqu’il souligne que le diagnostic repose aussi beaucoup, dans notre spécialité, sur les résultats de l’examen clinique, à savoir l’utilisation de la lampe à fente. Certes, mais en matière d’imagerie ophtalmologique, la combinaison de machines de plus en plus performantes pour l’analyse du segment antérieur et de la rétine, et de l’intelligence artificielle, est déjà en marche. Et la question sur triage puis le diagnostic automatisé des patients n’est pas de savoir si cela sera possible un jour, mais plutôt à quelle échéance…

Khurana RN: The inaccuracy of ocular online symptom checkers—Googlers beware. JAMA Ophthalmology 2019; 137: 693

Shen C, Nguyen M, Gregor A, Isaza G, Beattie A: Accuracy of a popular online symptom checker for ophthalmic diagnoses. JAMA Ophthalmol. 2019;137(6):690-692.

Reviewer : Marc Labetoulle, thématique : diagnostic, intelligence artificielle.