Les collectifs humains – AI font les diagnostics médicaux les plus précis, selon une nouvelle étude

L’intelligence artificielle (IA) peut soutenir efficacement les médecins dans la possibilité de faire des diagnostics. Il fait des erreurs différentes de celles des humains – et cette complémentarité représente une force auparavant inexploitée. Une équipe internationale a désormais systématiquement démontré pour la première fois que la combinaison de l’expertise humaine avec les modèles d’IA conduit aux diagnostics ouverts les plus précis. Leur article est publié dans le Actes de l’Académie nationale des sciences.

Les erreurs de diagnostic sont parmi les problèmes les plus graves de la pratique médicale quotidienne. Les systèmes d’IA – en particulier les modèles de langage (LLM) comme ChatGPT-4, Gemini ou Claude 3 – offrent de nouvelles façons de soutenir efficacement les diagnostics médicaux. Pourtant, ces systèmes entraînent également des risques considérables – par exemple, ils peuvent «halluciner» et générer de fausses informations. De plus, ils reproduisent les biais sociaux ou médicaux existants et font des erreurs qui sont souvent perplexes envers les humains.

L’équipe de recherche internationale, dirigée par le Max Planck Institute for Human Development et en collaboration avec des partenaires du Human Diagnostic Project (San Francisco) et de l’Institut des sciences cognitives et des technologies du Conseil national de recherche italien (CNR-ISTC), a étudié comment les humains et l’IA peuvent collaborer au mieux.

Le résultat: les collectifs diagnostiques hybrides – les groupes composés d’experts humains et de systèmes d’IA – sont beaucoup plus précis que les collectifs composés uniquement d’humains ou d’IA. Cela vaut particulièrement pour des questions diagnostiques complexes et ouvertes avec de nombreuses solutions possibles, plutôt que des décisions simples oui / non.

« Nos résultats montrent que la coopération entre les humains et les modèles d’IA a un grand potentiel pour améliorer la sécurité des patients », a déclaré l’auteur principal Nikolas Zöller, chercheur postdoctoral au Center for Adaptive Rationality of the Max Planck Institute for Human Development.

Les chercheurs ont utilisé des données du projet de diagnostic humain, qui fournit des vignettes cliniques – des descriptions de cas d’études de cas médicale – ainsi que les diagnostics corrects. En utilisant plus de 2 100 de ces vignettes, l’étude a comparé les diagnostics posés par des professionnels de la santé avec ceux des cinq principaux modèles d’IA.

Dans l’expérience centrale, divers collectifs diagnostiques ont été simulés: les individus, les collectifs humains, les modèles d’IA et les collectifs mixtes humains – AI. Au total, les chercheurs ont analysé plus de 40 000 diagnostics. Chacun a été classé et évalué selon les normes médicales internationales (CT SNOMED).

Les humains et les machines se complètent, même dans leurs erreurs

L’étude montre que la combinaison de plusieurs modèles d’IA a amélioré la qualité diagnostique. En moyenne, les collectifs de l’IA ont surpassé 85% des diagnostics humains. Cependant, il y avait de nombreux cas dans lesquels les humains ont mieux performé. Fait intéressant, lorsque l’IA a échoué, les humains connaissaient souvent le bon diagnostic.

La plus grande surprise a été que la combinaison des deux mondes a entraîné une augmentation significative de la précision. Même en ajoutant un modèle d’IA unique à un groupe de diagnosticiens humains – ou vice versa – a amélioré le résultat. Les résultats les plus fiables provenaient de décisions collectives impliquant plusieurs humains et des IA multiples.

L’explication est que les humains et l’IA font des erreurs systématiquement différentes. Lorsque l’IA a échoué, un professionnel humain pourrait compenser l’erreur – et vice versa. Cette complémentarité dite d’erreur rend les collectifs hybrides si puissants. « Il ne s’agit pas de remplacer les humains par des machines. Nous devons plutôt considérer l’intelligence artificielle comme un outil complémentaire qui déploie son plein potentiel dans la prise de décision collective », a déclaré le co-auteur Stefan Herzog, chercheur principal au Max Planck Institute for Human Development.

Cependant, les chercheurs soulignent également les limites de leur travail. L’étude n’a examiné que des vignettes de cas basées sur le texte – pas les patients réels dans des milieux cliniques réels. Que les résultats puissent être transférés directement à la pratique restent une question pour les études futures. De même, l’étude axée uniquement sur le diagnostic, et non sur le traitement et un diagnostic correct ne garantit pas nécessairement un traitement optimal.

Il reste également incertain comment les systèmes de soutien basés sur l’IA seront acceptés dans la pratique par le personnel médical et les patients. Les risques potentiels de biais et de discrimination par l’IA et les humains, en particulier en ce qui concerne les différences ethniques, sociales ou de genre, nécessitent également des recherches supplémentaires.

Large gamme d’applications pour les collectifs humains hybrides

L’étude fait partie du projet hybride de l’intelligence collective artificielle humaine dans le projet de prise de décision ouverte (HACID), qui vise à promouvoir le développement de futurs systèmes de prise de décision clinique grâce à l’intégration intelligente de l’intelligence humaine et machine. Les chercheurs voient un potentiel particulier dans les régions où l’accès aux soins médicaux est limité. Les collectifs humains hybrides pourraient apporter une contribution cruciale à une plus grande capitaux propres des soins de santé dans de tels domaines.

« L’approche peut également être transférée dans d’autres domaines critiques, tels que le système juridique, la réponse aux catastrophes ou la politique climatique – où que des décisions complexes et à haut risque soient nécessaires. Par exemple, le projet HACID développe également des outils pour améliorer la prise de décision dans l’adaptation climatique », explique Vito Trianni, co-auteur et coordinateur du projet Hacid.