В своей книге «Совместный интеллект: жизнь и работа с ИИ» Итан Моллик описывает эксперимент Фабрицио Делл’Аква:
В другой статье Фабрицио Делл’Аква показывает, почему чрезмерное доверие к ИИ может привести к обратным результатам. Он обнаружил, что рекрутеры, которые использовали высококачественный искусственный интеллект, становились ленивыми, небрежными и менее квалифицированными в своих суждениях. Они упустили несколько блестящих кандидатов и приняли худшие решения, чем рекрутеры, которые использовали некачественный искусственный интеллект или вообще не использовали его.
Он нанял 181 профессионального рекрутера и поставил перед ними сложную задачу: оценить 44 заявки на работу на основе их математических способностей. Данные были получены в ходе международного теста на знание навыков для взрослых, поэтому результаты по математике не были очевидны из резюме. Рекрутерам были предоставлены различные уровни поддержки ИИ: у кого-то поддержка ИИ была хорошей или плохой, а у кого-то — никакой. Он измерил, насколько они точны, быстры, трудолюбивы и уверены в себе.
Рекрутеры с более качественным ИИ работали хуже, чем рекрутеры с менее качественным ИИ. Они тратили меньше времени и усилий на составление каждого резюме и слепо следовали рекомендациям ИИ. Со временем их результаты также не улучшились. С другой стороны, рекрутеры с некачественным ИИ были более внимательными, критичными и независимыми. Они улучшили взаимодействие с ИИ и свои собственные навыки. Делл’Аква разработал математическую модель, объясняющую соотношение между качеством ИИ и человеческими усилиями. Когда ИИ очень хорош, у людей нет причин усердно работать и уделять этому внимание. Они позволяют ИИ управлять собой, вместо того чтобы использовать его как инструмент, что может навредить обучению, развитию навыков и производительности человека. Он назвал это “засыпанием за рулем”.
Во что обходится засыпание за рулем? Мы можем лучше понять это из пока еще неопубликованного рабочего документа. (Я ожидаю, что в скором времени он будет опубликован в каком-нибудь достаточно престижном месте.)
Точность “плохого ИИ” составила 75%. Точность “хорошего ИИ” составила 85%. Какова была точность рекрутеров? Насколько я понял из таблицы 4 статьи, без какой-либо поддержки ИИ точность рекрутеров составила 72,3%. При плохом ИИ этот показатель составил 75,4%, а при хорошем ИИ — 74,4%. Итак, общий результат был примерно одинаковым во всех трех процедурах. (Я основывал эти расчеты на предположении, что результаты получены на основе линейной регрессии для столбцов (1) и (2). Автор мог бы использовать логистическую регрессию с учетом бинарной зависимой переменной, но величина коэффициентов говорит о том, что это не так.)
Но подумайте о том, чего мы могли бы достичь, если бы просто исключили рекрутеров. Рекрутеры с плохим ИИ ничего не добавляют. Их отклонения от рекомендаций ИИ — сущий пустяк. Рекрутеры с хорошим ИИ вмешиваются достаточно активно, чтобы снизить эффективность с 85% до 74%. Если уж на то пошло, рекрутеры с плохим ИИ не дремлют! Если бы они ничего не предпринимали, то получили бы точность в 85%. Вместо того чтобы думать о том, как привлечь внимание рекрутеров, нам следует отстранить их от выполнения таких простых задач, как прогнозирование.
Неэффективность комбинаций искусственного интеллекта и человека — распространенная тема в литературе, посвященной статистическому прогнозированию и прогнозированию с помощью человека. Объедините человека с хорошим алгоритмом, и вы улучшите производительность человека. Однако их производительность все равно будет ниже уровня самого алгоритма. (Ранее я писал об этом в журнале Behavioral Scientist.)
Прежде чем продолжить, я должен отметить, что критерием качества принимаемых решений при предварительной регистрации было не решение о собеседовании с кандидатом, а скорее степень уверенности. (Я не могу это проверить, так как предварительная регистрация запрещена.) При принятии каждого решения рекрутеров просили оценить свою уверенность по шкале от 1 до 5. Используя этот показатель достоверности, рекрутеры с плохим ИИ показали значительно лучшие результаты, чем рекрутеры с хорошим ИИ (при добавлении некоторых дополнительных средств контроля порог был ниже 0,05). Я не могу подтвердить из статьи, превзошла ли бы хорошая модель ИИ по этому показателю — или даже генерирует ли она показатели достоверности — но я был бы очень удивлен, если бы модель не превзошла.
Учитывая вышесказанное, неясно, что является движущей силой результата, полученного в заголовке, и будет ли он повторяться. Рекрутерам было предоставлено одно из следующих описаний. Что касается хорошего ИИ:
Инструмент ИИ, который будет поддерживать вас, показал очень хорошие результаты в ходе предварительного анализа, и мы были очень довольны отобранными кандидатами. Однако он допустил несколько ошибок для кандидатов, которые были на волосок от гибели.
Мы проанализировали рекомендации алгоритма, используя данные о производительности, и обнаружили, что подавляющее большинство рекомендаций ИИ о том, проводить собеседование с кандидатом или нет, были правильными (примерно в 85% случаев).
Те, кому был выдан плохой ИИ читайте:
Инструмент искусственного интеллекта, который поможет вам в проведении предварительного анализа, показал хорошие результаты, и мы остались довольны отобранными кандидатами. Однако он допустил несколько ошибок для кандидатов, которые были на грани срыва.
Мы проанализировали рекомендации алгоритма, используя данные о производительности, и обнаружили, что подавляющее большинство рекомендаций ИИ о том, проводить собеседование с кандидатом или нет, были правильными (около 75% случаев).
Различия выполнены “очень хорошо”против “хорошо”, “очень доволен” против “доволен”, совершая “несколько” ошибок против “некоторых”, “подавляющее большинство” против “подавляющего большинства” и “85%” против “75%”.
Какие изменения являются движущей силой каков эффект? Мы не можем сказать наверняка. Я склоняюсь к тому, что цифры точности не имеют никакого значения. Люди, как правило, по-разному реагируют на цифры в этих диапазонах. Слова, возможно, что-то делают, но какие именно? Формулировка ошибок? Насколько разработчики довольны?
Кроме того, выявленная в ходе эксперимента проблема дает людям хороший ИИ или описывает его плохо? Мы могли бы легко использовать описание плохого ИИ для хорошего ИИ (за исключением числа, которое, как я предсказываю, никак не повлияет). Увидим ли мы эффект, если дадим описание плохого ИИ (за исключением номера) хорошему ИИ? Если нет, то мы решили проблему с засыпанием за рулем!
Мне бы хотелось, чтобы этот эксперимент повторили, смешав сочетания слов, чтобы лучше понять, что люди понимают. Я подозреваю, что различия в точности не будут повторяться. В этой статье есть некоторые классические признаки: слабая обработка и p-значение соскоба ниже 0,05. (Я более оптимистичен в отношении времени и усилий.)