3.2.1 Résumé des données probantes et du raisonnement

L’utilisation de la radiographie thoracique pour le dépistage de la tuberculose est une pratique qui remonte à plusieurs décennies. Les radiographies thoraciques sont également utilisées de manière systématique pour le triage des patients qui viennent se faire soigner et présentent des signes, des symptômes ou des facteurs de risque de tuberculose, afin de déterminer le parcours clinique le plus approprié pour une évaluation adéquate. Cependant, dans de nombreux milieux, l’utilisation de la radiographie thoracique pour le dépistage de la tuberculose et le triage des cas de tuberculose-maladie est limitée par le manque d’agents de santé formés à l’interprétation des radiographies et par une importante variabilité intra- et inter-lecteurs dans la précision de la détection des anomalies associées à la tuberculose (70 à 72).

De nombreux progiciels spécifiques permettant une DAO, c’est-à-dire l’interprétation automatisée de radiographies thoraciques numériques dans le seul but de déterminer la probabilité d’une tuberculosemaladie, ont été développés et offrent une réponse technologique potentielle aux nombreux défis de mise en œuvre inhérents à l’interprétation humaine des radiographies thoraciques.

Le GDG a examiné les performances des logiciels de DAO séparément pour les cas d’utilisation du dépistage et du triage. Dans les présentes lignes directrices, le tirage désigne le processus de choix du diagnostic et du parcours de soins des personnes en fonction de leurs signes et symptômes, de leurs marqueurs de risque et des résultats de leurs tests. Le triage comporte une évaluation de la probabilité de plusieurs diagnostics différentiels pour soutenir la prise de décisions cliniques (73). Il peut suivre des protocoles et des algorithmes plus ou moins normalisés et être réalisé en plusieurs étapes (68). Un test de triage de la tuberculose est un test pouvant être réalisé rapidement chez les personnes qui se rendent dans un centre de santé pour distinguer celles qui doivent faire l’objet d’un diagnostic ultérieur de la tuberculose (test de triage positif ou anormal) de celles qui doivent faire l’objet de diagnostics ultérieurs non liés à la tuberculose (test de triage négatif ou normal) (74). Bien que le triage et le dépistage puissent se chevaucher, il existe plusieurs raisons de distinguer le dépistage du triage lors de l’évaluation des performances d’un logiciel de DAO :

La présentation de la maladie peut être différente dans les populations dépistées où la probabilité de détecter à la radiographie thoracique une tuberculose précoce est plus élevée que dans les populations de triage. Par conséquent, le même point de sensibilité et de spécificité peut ne pas être atteint, ou il peut être atteint mais avec un score seuil différent.
La prévalence de la tuberculose sera généralement beaucoup plus faible dans les populations de dépistage (< 5 %) que dans les populations de triage (10 à 20 %). Cela aura un impact sur les valeurs prédictives d’un test et sur le nombre de personnes correctement et incorrectement diagnostiquées.
Les conséquences éthiques du fait de ne pas détecter la tuberculose ou d’obtenir d’autres résultats de radiographie thoracique non liés à la tuberculose (anomalies cliniquement pertinentes) qui nécessitent un examen de suivi diffèrent entre les populations qui ne cherchent pas à se faire soigner et celles qui le souhaitent (11).

Une étude réalisée par l’OMS sur l’utilisation de la DAO pour l’interprétation automatisée des radiographies thoraciques numériques pour la tuberculose a déterminé que pour évaluer correctement la précision diagnostique, il était nécessaire d’évaluer le logiciel de DAO en utilisant un ensemble standard de fichiers de radiographies thoraciques – avec les données démographiques et cliniques associées (y compris le diagnostic de la tuberculose) – provenant d’une population représentative pour le cas d’utilisation correspondant. Il a été jugé essentiel que ces évaluations s’assurent que les bibliothèques de radiographies thoraciques utilisées pour une évaluation ne soient pas mises à disposition pour le développement, la formation ou l’évaluation des logiciels de DAO (68). Pour cette réunion du GDG, un examen de la portée des évaluations indépendantes qui satisfont à ces critères a été effectué. Trois évaluations indépendantes pour le cas d’utilisation du dépistage et trois pour le cas d’utilisation du triage qui ont évalué les performances de trois logiciels de DAO distincts ont été identifiées et présentées au GDG. Elles comprenaient toutes des produits qui avaient reçu un marquage CE (pour « Conformité Européenne », qui indique la conformité d’un produit aux directives ou aux normes de l’Espace économique européen) avant janvier 2020.² Le GDG n’a pas été informé des noms de marque des logiciels. La qualité des évaluations a fait l’objet d’une étude distincte dont les résultats ont été présentés au GDG.

Pour chaque lecture d’image, les logiciels de DAO produisent un score d’anomalie numérique qui peut ensuite être comparé à un seuil défini par l’utilisateur pour indiquer si le patient doit être aiguillé vers une évaluation diagnostique supplémentaire de la tuberculose. Puisque les scores d’anomalie produits sont continus, la sensibilité et la spécificité peuvent varier de 0 à 100 %, en fonction du seuil fixé. Aux fins de l’évaluation par le GDG, chaque logiciel a été réglé sur un seuil correspondant à une sensibilité de 90 % pour la détection de la tuberculose-maladie pulmonaire sur la base d’un étalon de référence microbiologique. La spécificité d’accompagnement résultante du logiciel à ce seuil a ensuite été comparée à la précision diagnostique des lecteurs humains interprétant les radiographies thoraciques dans les mêmes études.

En raison de problèmes méthodologiques spécifiques, il n’a pas été possible de regrouper les estimations de la précision diagnostique de la DAO entre les logiciels ou entre les évaluations. C’est pourquoi les performances des logiciels de DAO et des lecteurs humains tirées des évaluations incluses ont été présentées sous forme de plages (voir Tableau 4). Les trois évaluations incluses ont étudié les performances de chaque logiciel dans différentes populations et différents milieux (voir l’Annexe Web B, Tableaux 11 et 12, et l’Annexe Web C, Tableaux 4 et 5).

Tableau 4. Plages de sensibilité et de spécificité des logiciels de détection assistée par ordinateur et des lecteurs humains interprétant des radiographies thoraciques numériques pour la détection de la tuberculose bactériologiquement confirmée pour trois logiciels, d’après trois évaluations indépendantes des logiciels dans un éventail de populations et de milieux

Les résultats ont montré la variabilité des lecteurs humains et des logiciels de DAO dans des populations et des milieux différents. Les données issues de la comparaison entre la plage de précision de la DAO et celle des lecteurs humains interprétant les radiographies thoraciques – en notant la variabilité des lecteurs et le chevauchement substantiel entre les deux plages – suggèrent l’absence d’une différence marquée entre les deux approches. Par conséquent, le GDG a considéré que les logiciels de DAO peuvent être considérés comme précis par rapport aux lecteurs humains.

Outre la précision des technologies, d’autres effets souhaitables pourraient inclure la possibilité d’étendre cette approche, et donc d’accroître l’accès à la radiographie thoracique, étant donné le manque de radiologues dans de nombreux milieux. En outre, les membres du GDG ont noté que dans de nombreux milieux, les radiographies thoraciques sont souvent interprétées par des médecins généralistes ou des prestataires dépourvus de formation spécifique en radiologie, qui peuvent ne pas être aussi qualifiés que les lecteurs utilisés pour la comparaison dans les évaluations considérées. Ainsi, les comparaisons présentées ici peuvent sous-estimer la véritable précision comparative des logiciels de DAO pour la détection de la tuberculose.

L’inconvénient de l’interprétation des radiographies thoraciques par la DAO plutôt que par des lecteurs humains est que la DAO ne peut pas détecter d’autres pathologies pulmonaires en plus de la tuberculose. La capacité des technologies de DAO à dépister simultanément plusieurs pathologies pulmonaires ou thoraciques pourrait rendre les logiciels encore plus intéressants, mais le GDG n’a pas pu l’évaluer faute de données sur les performances de la DAO pour le diagnostic différentiel.

Les technologies de DAO peuvent accroître l’équité dans la portée des interventions de dépistage de la tuberculose et dans l’accès aux soins antituberculeux si elles facilitent l’extension de la radiographie pour le dépistage et le triage de la tuberculose et améliorent l’interprétation des images.

La recommandation s’applique aux marques de logiciels pour lesquelles une validation externe montre des performances non inférieures à celle des produits examinés par le GDG en 2020. Pour cette recommandation, l’analyse a été limitée à la tuberculose bactériologiquement confirmée. Par conséquent, la recommandation ne s’applique pas nécessairement aux autres formes de tuberculose (p. ex. la tuberculose exclusivement extrapulmonaire ou la tuberculose diagnostiquée cliniquement). Cette recommandation est spécifique aux adolescents âgés de 15 ans et plus et aux adultes. La recommandation ne s’applique qu’à l’interprétation des vues antéro-postérieures ou postéro-antérieures des radiographies thoraciques numériques simples pour la détection de la tuberculose pulmonaire. Elle ne s’applique pas à l’interprétation des vues latérales ou obliques, et son applicabilité à l’interprétation des radiographies thoraciques analogiques est inconnue.

2 Les trois technologies qui disposaient d’un marquage CE en janvier 2020 et ont été incluses dans toutes les évaluations sont CAD4TB v6 (de Delft Imaging), Lunit Insight CXR (de Lunit Insight) et qXR v2 (de Qure.ai).

Convert to pdf

Off

3.2.1 Résumé des données probantes et du raisonnement

Navigation du livre