3.2.1 Резюме доказательств и обоснование

РГК для скрининга на туберкулез используется уже в течение нескольких десятилетий. РГК также используются в повседневной практике для медицинской сортировки пациентов, обращающихся за помощью, у которых проявляются признаки, симптомы или факторы риска ТБ, чтобы определить наиболее подходящий клинический протокол для надлежащей оценки. Однако во многих условиях использование рентгенографии для скрининга на туберкулез и медицинской сортировки пациентов на ТБ ограничено из-за отсутствия обученного медицинского персонала для интерпретации рентгеновских снимков и значительной вариабельности в сходимости считываний одним специалистом и несколькими специалистами с целью выявления патологических изменений, связанных с ТБ (70–72).

Были разработаны многочисленные специальные пакеты программ, которые обеспечивают КД или автоматическую интерпретацию цифровых РГК снимков для конкретной цели определения вероятности заболевания ТБ и предлагают потенциальное технологическое решение для многочисленных проблем реализации, присущих интерпретации РГК человеком.

ГРР рассмотрела эффективность программного обеспечения КД отдельно для случаев использования скрининга и медицинской сортировки. В контексте данного руководства медицинская сортировка определяется как процесс определения протоколов диагностики и оказания медицинской помощи людям на основе наличия симптомов, признаков, маркеров риска и результатов тестов. Медицинская сортировка пациентов включает оценку вероятности различных диагнозов как основу для принятия клинических решений (73). Сортировка может проводиться в соответствии с более или менее стандартизированными протоколами и алгоритмами и в несколько этапов (68). Сортировочный тест на ТБ – это тест, который можно быстро провести у лиц, обращающихся в медицинское учреждение, чтобы дифференцировать тех, кому следует пройти дополнительную диагностическую оценку на ТБ, и тех, кто должен пройти другое дополнительное обследование для постановки диагнозов, не связанных с ТБ (для тех, чей тест на сортировку пациентов на ТБ отрицательный или нормальный) (74). Хотя сортировка и скрининг могут частично совпадать, есть несколько оснований отличать скрининг от сортировки при оценке эффективности программного обеспечения КД.

Представление информации о заболевании может быть различным в скрининговых группах, в которых вероятность столкнуться с результатами РГК более раннего ТБ выше, чем в группах с медицинской сортировкой. Следовательно, такой же уровень чувствительности и специфичности не может быть достигнут или может быть достигнут, но с другим пороговым значением.
Распространенность ТБ, как правило, будет намного ниже в группах скрининга (< 5%), чем в группах сортировки (10–20%), что повлияет на прогностические значения теста и количество людей, которым поставлен правильный или неправильный диагноз.
Этические последствия невыявления ТБ или других, не связанных с ТБ результатов РГК (но клинически значимых отклонений), требующих последующего обследования, различны для групп населения, которые не обращаются за медицинской помощью, и для тех, которые обращаются (11).

Предыдущая оценка использования КД для автоматической интерпретации цифровых РГК в рамках выявления ТБ, проведенная ВОЗ, показала, что для адекватной оценки диагностической точности необходимо было оценить программное обеспечение КД с использованием стандартной панели файлов РГК со связанными демографическими и клиническими данными, включая диагностику ТБ, взятыми из репрезентативной выборки населения для соответствующего варианта использования технологии. Было признано важным, чтобы такие оценки гарантировали недоступность библиотек РГК, используемых в оценке, для разработки, обучения или оценки программного обеспечения КД (68). Для данного заседания ГРР был проведен обзор сферы охвата для независимых оценок, соответствующих этим критериям. Были определены и представлены в ГРР три независимых оценки как для варианта использования для скрининга, так и для варианта использования для медицинской сортировки, которые оценивали эффективность трех отдельных программ КД; оценки включали все продукты, получившие маркировку CE («Европейское соответствие», указывающее на соответствие директивам или стандартам Европейской экономической зоны) до января 2020² г. ГРР не имела представления о брендах компьютерных программ. Был проведен отдельный анализ качества оценок, и результаты представлены в ГРР.

Программы КД выдают числовую балльную оценку отклонений от нормы для каждого считанного цифрового изображения, которую затем можно сравнить с пороговым значением, определенным пользователем, чтобы указать, следует ли направить пациента для дальнейшей диагностической оценки ТБ. Поскольку полученные балльные оценки патологических изменений являются постоянными, чувствительность и специфичность могут варьироваться от 0 до 100%, в зависимости от того, где установлено пороговое значение. Для оценки ГРР каждая компьютерная программа была установлена на пороговое значение, которое соответствовало 90% чувствительности для обнаружения легочного ТБ на основе микробиологического эталонного стандарта. Полученная сопутствующая специфичность программного обеспечения на этом пороговом значении затем была представлена и сопоставлена с диагностической достоверностью считывающих специалистов, интерпретирующих РГК в тех же исследованиях.

Из-за специфических методологических проблем расчеты диагностической достоверности КД нельзя было объединить по компьютерным программам или по оценкам. Таким образом, характеристики программ КД и считывающих специалистов из включенных оценок были представлены в виде диапазонов (см. таблицу 4). В трех включенных оценках анализировалась эффективность каждой программы в разных группах населения и в разных условиях (см. веб-приложение В, таблицы 11 и 12, и веб-приложение C, таблицы 4 и 5).

Sensitivity and specificity ranges of computer-aided

КД: компьютерная диагностика; РГК: рентгенограмма грудной клетки.

Результаты показали вариабельность как считывающих специалистов, так и программ КД в разных условиях и в разных группах населения. Сравнивая диапазон точности КД с диапазоном точности считывающих специалистов, интерпретирующих РГК, и отмечая вариабельность считывателей и существенное совпадение двух диапазонов, данные показали, что между ними мало различий. Таким образом, ГРР сочла, что программы КД могут считаться точными по сравнению со считывающими специалистами.

Другие положительные эффекты, выходящие за рамки точности технологий, вероятно, включают возможность расширения масштабов и, таким образом, увеличения доступа к рентгенографии грудной клетки, учитывая нехватку рентгенологов во многих условиях. Кроме того, члены ГРР отметили, что во многих ситуациях врачам общей практики или другим медицинским работникам, не имеющим специальной подготовки в области радиологии, часто ставят задачу интерпретировать рентгенограммы грудной клетки. Указанные специалисты могут быть не такими высококвалифицированными, как считыватели, используемые для сравнения в рассматриваемых оценках, что указывает на то, что приведенные здесь сравнения могут недооценивать истинную сравнительную точность программного обеспечения КД для выявления ТБ.

Недостатком использования интерпретации КД вместо считывающих специалистов для рентгенограмм грудной клетки был тот факт, что она не может обнаружить другие заболевания легких, кроме ТБ. Потенциал КД-технологий выполнять одновременный скрининг на множественные заболевания легких или органов грудной клетки мог быть перспективным для программ, но ГРР не располагала данными об эффективности КД для дифференциальной диагностики.

Технологии КД могут повысить равенство в охвате вмешательств по скринингу на туберкулез и в доступе к лечению ТБ, если они будут способствовать расширению масштабов рентгенографии для скрининга и сортировки на ТБ и улучшат интерпретацию изображений.

Рекомендация распространяется на бренды программного обеспечения, которые после внешней проверки демонстрируют эффективность, не уступающую продуктам, рассмотренным ГРР в 2020г. Анализ для этой рекомендации был ограничен ТБ, подтвержденным бактериологическими методами, поэтому рекомендация может не применяться в обязательном порядке к другим формам ТБ (например, исключительно внелегочный ТБ, диагностированный в клинических условиях ТБ). Эта рекомендация предназначена для взрослых и подростков в возрасте 15 лет и старше. Рекомендация применима только к интерпретации передне-задних или задне-передних проекций цифровых обзорных РГК при легочном ТБ: она не применяется к интерпретации боковых или косых проекций, и ее применимость к интерпретации аналоговых РГК неизвестна.

2 Три технологии, получившие маркировку CE к январю 2020 г. и включенные во все оценки: CAD4TB v6, Delft Imaging; Lunit Insight CXR, Lunit Insight; и qXR v2, Qure.ai.

3.2.1 Резюме доказательств и обоснование

Book navigation