В самых разных ситуациях специалисты, сталкивающиеся со схожими ситуациями, часто делают систематически различный выбор. Например, врачи могут по-разному относиться к назначению агрессивных методов лечения или дорогостоящих анализов пациентам со схожими характеристиками. Судьи по-разному выносят строгие или мягкие приговоры аналогичным обвиняемым. Аналогичные тенденции также наблюдаются среди учителей, менеджеров и сотрудников полиции. Это различие представляет особый интерес для политиков. Эти различия могут свидетельствовать о неравномерном распределении ресурсов в аналогичных случаях, что часто приводит к предложениям о разработке руководящих принципов для стандартизации процесса принятия решений, с тем чтобы уменьшить различия в скорости принятия решений между лицами, принимающими решения.
При принятии этих решений типичный эксперт начинает с оценки вероятных последствий своих вариантов, исходя из конкретного случая. Например, врачи стремятся диагностировать основное заболевание пациента и оценить возможные результаты лечения, а судьи работают над установлением фактов преступления и вероятности рецидива. Точность этих оценок отражает диагностические навыки эксперта. После такой оценки агенты взвешивают затраты и выгоды, связанные с каждым выбором, балансируя между компромиссами для принятия решения. Например, врач может посчитать, что отсутствие диагноза обходится дороже, чем неправильное лечение здорового пациента, а судья может счесть осуждение невиновного человека гораздо более нежелательным, чем возможность рецидива. Эти коэффициенты отражают предпочтения эксперта.
“Наше недавнее исследование выявило существенные различия в квалификации рентгенологов в контексте диагностики пневмонии”
Систематические различия в решениях могут быть вызваны различиями в навыках, предпочтениях или и тем, и другим. Определение того, откуда берутся различия, имеет решающее значение для оценки чистых затрат и выгод и, следовательно, для разработки эффективной политики. Если различия в решениях в основном обусловлены различиями в предпочтениях, это свидетельствует о неэффективности подхода к решению проблемы со стороны всеобъемлющего “социального планировщика”. Специалист по социальному планированию взвесил бы издержки ложноотрицательных и ложноположительных результатов в интересах общества в целом. Тогда стандартизация скорости принятия решений могла бы улучшить результаты. И наоборот, если различия возникают главным образом из-за различий в навыках, это не обязательно означает неэффективность, а уменьшение различий в скорости принятия решений может быть даже контрпродуктивным.
Вариабельность диагнозов пневмонии
Многие предыдущие исследования были сосредоточены исключительно на различиях в предпочтениях, часто игнорируя роль различий в навыках. Наше недавнее исследование выявило существенные различия в квалификации рентгенологов в контексте диагностики пневмонии, подчеркнув важность учета как различий в квалификации, так и предпочтений. Пневмония поражает сотни миллионов людей и ежегодно приводит к миллионам смертей во всем мире. Несмотря на доступность лечения антибиотиками, он остается одной из ведущих причин смертности в Соединенных Штатах.
В статье анализируются данные Управления здравоохранения ветеранов о 5,5 миллионах рентгеновских снимков грудной клетки, проведенных в отделениях неотложной помощи (EDs). Рентгенологи назначаются для проведения визуализации пациентов практически случайным образом в каждом месте и в любое время. Каждый радиолог должен решить, диагностировать ли у пациента пневмонию и начинать ли лечение антибиотиками, основываясь на рентгеновских снимках и другой доступной информации. Доля пациентов, у которых рентгенологом диагностирована пневмония, называется процентным показателем. Что касается пациентов, которым не был поставлен диагноз в отделении неотложной помощи, некоторые из них могут вернуться позже и получить диагноз пневмонии в течение нескольких дней. Доля пациентов, обращающихся к рентгенологу с недиагностированной пневмонией, которые покидают приемный покой, называется их частотой пропусков лечения.
Используя полученные данные, исследование впервые выявило значительные различия в частоте диагностирования среди рентгенологов. Например, перевод пациентов от врача-рентгенолога, относящегося к 10-му процентилю частоты постановки диагноза, к врачу, относящемуся к 90-му процентилю, повысил бы вероятность постановки диагноза с 8,9% до 12,3%. Этот вывод согласуется с предыдущими данными, свидетельствующими о существенной вариабельности диагнозов пневмонии у разных рентгенологов, даже при интерпретации одних и тех же рентгеновских снимков грудной клетки.
“После учета местоположения и времени у рентгенологов с более высокими показателями диагностики в среднем наблюдается более высокий, а не более низкий уровень ошибок”
Если бы все рентгенологи обладали одинаковыми навыками диагностики, наблюдаемые различия в диагнозы были бы поставлены исключительно из-за различий в предпочтениях. При таком сценарии, когда случаи заболевания случайным образом распределяются между рентгенологами, у тех, кто ставит диагноз большему числу пациентов, в среднем должно быть меньше пропущенных случаев, поскольку они будут проявлять большую осторожность, чтобы избежать пропущенных диагнозов. Однако, как показано на рисунке 1, после учета местоположения и времени, рентгенологи с более высокими показателями диагностики в среднем демонстрируют более высокие, а не более низкие показатели ошибок. Это означает, что пациент, случайно направленный к рентгенологу с более высокой вероятностью постановки диагноза, с большей вероятностью покинет отделение неотложной помощи с недиагностированной пневмонией по сравнению с пациентом, которого осмотрел рентгенолог с более низкой вероятностью постановки диагноза.
Рисунок 1: Частота диагностирования и пропущенных тестов
На рисунке 1 также показано, что частота пропущенных тестов сильно варьируется, даже если частота диагностирования остается постоянной. При том же показателе постановки диагноза у врача-рентгенолога из 90-го процентиля частота промахов на 0,7 процентных пункта выше, чем у врача из 10-го процентиля. Эти данные опровергают гипотезу о единообразии квалификации врачей-рентгенологов, предполагая, что различия в квалификации играют важную роль в принятии решений.
Этот вывод важен для разработки политики. Усилия по стандартизации показателей диагностики могут привести к значительному повышению квалификации, что потенциально может привести к упущению возможностей для повышения точности диагностики. Более того, политика стандартизации может оказаться контрпродуктивной, если различия в диагностических навыках приведут к тому, что оптимальными будут разные показатели диагностики. Например, если отсутствие диагноза обходится дороже, чем ложная диагностика у здорового пациента, рентгенолог, располагающий более полной диагностической информацией, может оптимально диагностировать большее количество пациентов. Требование к нему или к ней поступать иначе может непреднамеренно снизить эффективность.Чтобы объяснить эти эмпирические наблюдения, в статье предлагается концепция, в которой агенты различаются как по навыкам, так и по предпочтениям, а их решения определяются этими двумя факторами совместно. Структура начинается с “проблемы классификации”, в которой как решения, так и лежащие в их основе “состояния мира” являются бинарными (то есть в каждом случае существует только две возможности). В этом контексте решение о том, ставить ли пациенту диагноз и начинать лечение антибиотиками, зависит от того, есть ли у пациента пневмония. Рентгенолог сначала изучает рентгенограммы грудной клетки и другую соответствующую информацию, чтобы сформировать представление о вероятности заболевания, ранжируя случаи по их пригодности для лечения. Затем он выбирает пороговое значение в рамках этого рейтинга, диагностируя случаи с сигналами, превышающими это пороговое значение. При выборе этого порогового значения радиолог оценивает относительную стоимость ложноотрицательного результата (т.е. отсутствия диагноза) по сравнению с ложноположительным результатом (т.е. ошибочного диагноза здорового пациента).
“если пропущенный диагноз обходится дороже, чем ложный диагноз здоровому пациенту, рентгенолог, располагающий более шумной диагностической информацией, может оптимально диагностировать большее количество пациентов”
В этом контексте мастерство относится к корреляции между сигнал, который формирует рентгенолог, зависит от состояния пациента; чем выше квалификация, тем точнее сигнал, отражающий наличие пневмонии. Предпочтение, с другой стороны, относится к оценке врачом—рентгенологом затрат, связанных с различными диагностическими ошибками, в частности, относительной важности ложноотрицательных и ложноположительных результатов.
Эта схема может объяснить положительную взаимосвязь, наблюдаемую между частотой постановки диагноза и частотой пропусков. Если считается, что отсутствие диагноза пневмонии обходится дороже, чем ложный диагноз здоровому пациенту, рентгенолог с более низкими диагностическими навыками разумно решит диагностировать большее количество пациентов. Стремление снизить риск пропущенных случаев приводит к более высокому уровню диагностики. Однако этот менее квалифицированный рентгенолог может также допустить больше ошибок, в результате чего у большего числа пациентов будет диагностирована пневмония, что приведет к более высокому проценту пропусков.
Анализ навыков и предпочтений
В статье показано, что при случайном распределении пациентов к рентгенологам информация о частоте постановки диагноза и частоте пропусков может быть объединена для определения относительного уровня их квалификации с минимальными допущениями. Для любогов паре рентгенологов, если у одного из них и более высокий уровень диагностики, и более высокий уровень пропусков, чем у другого, этот рентгенолог, должно быть, имеет более низкую квалификацию. Аналогичным образом, если у рентгенолога более низкий или равный показатель постановки диагноза, но значительно более высокий показатель пропусков, превышающий любые различия в показателях постановки диагноза, то этот радиолог также должен обладать более низкой квалификацией.
Распространенным инструментом для определения точности классификации является кривая рабочих характеристик приемника (ROC). Он сопоставляет показатель истинно положительных результатов (TPR) — долю истинно положительных результатов среди всех положительных случаев — с показателем ложноположительных результатов (FPR) — долей ложноположительных результатов среди всех отрицательных случаев. В идеале, TPR=1 (отсутствие пропущенных диагнозов) и FPR=0 (отсутствие ненужных диагнозов). В нашей модели кривая ROC агента определяет границу достижимых результатов классификации, поскольку она регулирует долю случаев, классифицируемых как положительные. Если агент не диагностирует ни одного случая, то TPR и FPR равны 0; если она диагностирует все случаи, то оба они равны 1. По мере увеличения числа диагностируемых случаев TPR и FPR также увеличиваются. Таким образом, кривая ROC напоминает то, что экономисты называют “границей производственных возможностей”, но в данном случае для “истинно положительных” и “истинно отрицательных” диагнозов, где более высокие кривые указывают на более высокий уровень квалификации на этапе оценки. Позиция агента на кривой ROC отражает его предпочтения.
Рисунок 2: Проецирование данных на пространство ROC
На рисунке 2 отображен наблюдаемый диагноз каждого рентгенолога и частота пропусков на TPR и FPR на основе оценок модели. Сплошные линии представляют кривые ROC для разных уровней квалификации, каждая точка соответствует рентгенологу. Разброс точек показывает, что рентгенологи не располагаются вдоль одной кривой ROC, что указывает на существенные различия в квалификации.Результаты предполагают, что пациенты случайным образом распределяются между рентгенологами для любого заданного местоположения и времени. Если это предположение неверно и одному рентгенологу назначаются более больные пациенты — те, у кого по своей природе больше шансов заболеть пневмонией, — по сравнению с другим рентгенологом, работающим в том же месте и в то же время, то у первого может быть как более высокая частота постановки диагноза, так и более высокая частота пропусков, даже при одинаковом уровне квалификации.
Предполагая, что случайное назначение возможно в условиях отделения неотложной помощи, из-за специфических различий в количестве поступающих пациентов и доступности рентгенологов в определенное время и в определенных местах. Мы опираемся на набор данных, подтверждающих это: мы показываем, что полный набор характеристик пациента и клинической информации, которые тесно связаны с сопутствующими заболеваниями, имеет ограниченную прогностическую силу при назначении рентгенолога. Это означает, что группа пациентов, наблюдаемых каждым рентгенологом, имеет одинаковый средний риск развития пневмонии. Кроме того, результаты остаются достоверными, когда эти характеристики пациента и клинические данные либо учитываются при анализе, либо исключаются из него.
“когда пациенты случайным образом распределяются между рентгенологами, информация о частоте постановки диагноза и частоте пропусков может быть объединена для определения их относительного уровня квалификации с минимальными допущениями”
С дополнительными предположениями о структуре рентгенологического исследования. сигналы, которые радиологи получают относительно состояния пациентов, их “функций полезности” (предпочтений) и совместного распределения навыков и предпочтений, неоднородность навыков и предпочтений радиологов могут быть отдельно идентифицированы на основе данных. Результаты оценки показывают, что в среднем диагностический сигнал рентгенолога имеет корреляцию 0,85 с основным состоянием пациента. Однако точность диагностики у разных радиологов сильно различается, и корреляция колеблется от 0,76 в 10-м процентиле до 0,93 в 90-м процентиле. В среднем радиологи считают, что отсутствие диагноза обходится в 6,71 раза дороже, чем постановка ненужного диагноза; это соотношение варьируется от 5,60 до 7,91 между 10-м и 90-м процентилями. В целом, устранение различий в навыках снизило бы частоту постановки диагноза на 39%, а количество ошибок — на 78%. Напротив, устранение различий в предпочтениях уменьшило бы частоту постановки диагноза на 29% и не оказало бы существенного влияния на частоту ошибок.Диагностические навыки также различаются у разных групп рентгенологов. Рентгенологи старшего возраста и те, кто проводит рентгенографию грудной клетки в больших объемах, как правило, обладают лучшими диагностическими навыками. Интересно, что радиологи более высокой квалификации, как правило, публикуют более короткие отчеты о своих результатах, но тратят на это больше времени. Это говорит о том, что профессионализму радиолога могут способствовать усилия, а не только талант.
Что это означает для политики
Используя модельные оценки, в статье рассматриваются два типа политических вмешательств. С точки зрения общества, эти факторы включают как ложноотрицательные результаты (пропущенные диагнозы), так и ложноположительные результаты (ненужные диагнозы), оцениваемые с помощью объективной функции, которая отражает предпочтения общественного деятеля в целом и, как предполагается, соответствует предпочтениям среднестатистического рентгенолога.
Первая политика устанавливает фиксированный диагностический порог, направленный на максимизацию благосостояния, исходя из (неверного) предположения, что все радиологи обладают одинаковой квалификацией. Хотя этот подход устраняет различия в диагностике, моделирование показывает, что фиксированный порог привел бы к худшим результатам. Хотя это сокращает количество ненужных диагностик, это приводит к увеличению числа пропущенных диагнозов, которые обходятся дороже. Этот результат объясняется тем, что радиологи с низкой квалификацией, как правило, диагностируют большее количество пациентов, чтобы уменьшить количество пропущенных диагнозов. Принуждение к соблюдению фиксированного порога ограничивает эту адаптацию и может быть контрпродуктивным.
Более гибкий подход предполагает установление пороговых значений, которые оптимально варьируются в зависимости от уровня квалификации каждого радиолога. По замыслу, такая политика способствует повышению благосостояния. Однако потенциальный рост благосостояния невелик. Кроме того, поскольку на практике уровень квалификации часто остается незамеченным, реализация такой политики будет сопряжена с трудностями.
“Совершенствование навыков диагностики приводит к значительному сокращению как пропущенных, так и ненужных диагнозов, что приводит к значительному повышению благосостояния, превосходящему любую политику, основанную на пороговых значениях”
Вторая политика направлена на повышение навыков диагностики. само по себе это может быть достигнуто за счет иной подготовки радиологов, отбора специалистов с более высоким уровнем квалификации или обобщения сигналов для улучшения информативности при принятии решений. В частности, мы рассматриваем политику, которая повышает уровень квалификации радиологов в нижнем квартиле распределения до 25-го процентиля, сохраняя при этом возможность принимать решения, основываясь на их собственных предпочтениях. Результаты моделирования показывают, что повышение квалификации диагностов приводит к значительному сокращению числа пропущенных и ненужных диагнозов, что приводит к значительному повышению благосостояния, превосходящему любую политику, основанную на пороговых значениях.С помощью этого моделирования в статье подчеркивается, что “навыки” и “предпочтения” различаются в том, что они подразумевают для социального обеспечения и политики. На практике каждое измерение, вероятно, отражает различные основополагающие факторы, и их относительная важность может значительно варьироваться в зависимости от контекста. Например, “мастерство” может отражать не только врожденные способности рентгенолога, но и усилия, которые он прилагает. Радиологи часто выносят суждения, опираясь на мнения других людей, таких как ординаторы, научные сотрудники и клиницисты, не являющиеся радиологами, и сообщают о своих выводах другим врачам. Таким образом, квалификация может также отражать качество информации, предоставляемой радиологом или его командой. Между тем, “предпочтения” здесь представляют собой отклонения от целей социального планировщика, которые могут быть вызваны внутренними предпочтениями, индивидуальными предубеждениями или внешними стимулами.Хотя конкретные механизмы, определяющие “навыки” или “предпочтения”, могут напрямую не влиять на анализ благосостояния в нашем исследовании, они будут иметь значение для эффективной политики. Например, решение о том, инвестировать ли средства в обучение рентгенологов чтению рентгенограмм грудной клетки, поощрять практику сотрудничества или совершенствовать коммуникативные навыки, будет зависеть от институциональных факторов, определяющих эти аспекты.
В этой статье кратко излагается работа Дэвида С. Чана, Мэтью Генцкова и Чуан Ю “Отбор с учетом различий в диагностических навыках: свидетельства радиологов”, опубликованная в the Quarterly Journal of Economics в мае 2022 года.
Дэвид Чан — доцент кафедры политики здравоохранения. в Стэнфордской медицинской школе и следователем в Департаменте по делам ветеранов. Мэтью Генцков — профессор технологии и экономики Стэнфордского университета им. Ландау. Чуань Юй — научный сотрудник Гарвардской школы бизнеса.