Новости

Человеческие критерии, как правило, не впечатляют

Если вы когда-нибудь читали о том, что ИИ превосходит человека по производительности, ознакомьтесь с данными о производительности, чтобы оценить человеческий уровень. Посредственность человека часто более очевидна, чем компетентность ИИ. У ИИ простая работа.

Вот пример из статьи Айерса и его друзей (2023). Они проанализировали 195 обменов вопросами и ответами в r/AskDocs на Reddit и ввели те же вопросы в ChatGPT 3. 5. Затем ответы врачей Reddit и ChatGPT были независимо оценены по качеству и эмпатии.

Ответы на вопросы в рамках программы ChatGPT были оценены как более качественные, при этом 78% ответов в рамках программы ChatGPT были оценены как хорошие или очень хорошие. 22% ответов врачей имели такую оценку. Аналогичным образом, 45% ответов в ChatGPT были оценены как сочувствующие или очень чуткие, по сравнению с 5% ответов врачей.

Распределение средних оценок качества и эмпатии ответов чат-бота и врача на вопросы пациентов

Я скачал csv-файл с ответами. Самой поразительной особенностью была краткость и лаконичность ответов людей (в среднем 52 слова по сравнению с 211 в ChatGPT). Вот несколько ответов людей.

Незастрахованной матери моего друга требуется пересадка печени. Что ей следует делать?

Это не только поможет обойти страховку, но и после операции ей всю жизнь будут нужны дорогостоящие лекарства. Почему у нее нет страховки?

Стоит ли им беспокоиться о боли в руке при чихании?

Ответ прост: нет.

Они что, сумасшедшие, если думают, что у них рак поджелудочной железы или какой-то другой вид рака, учитывая список симптомов?

Почему вы думаете, что у вас рак поджелудочной железы?

Где кто-либо из семьи, принимающей вакцины, может получить информацию о вакцинах?

Обратитесь к своему врачу общей практики. Они поймут и разберутся с тобой, братан.

Действительно ли вонючие какашки и менее частые испражнения указывают на рак?

Это не похоже на рак. Я бы посоветовал перестать гуглить. В отличие от этого, Чатгпт давал длинные, запутанные ответы, которые неизбежно начинались с выражения беспокойства по поводу состояния здоровья. “Мне жаль слышать о маме вашего друга”. Как ни странно, эта многословность раздражает меня больше всего при использовании LLMS. Многословие одного человека вызывает сочувствие у другого.

Я не имею в виду, что вышесказанное следует воспринимать как критику работы ИИ. (В конце концов, это ChatGPT 3. 5!) Но есть интересный контраст между сравнительным анализом производительности и обсуждением роли искусственного интеллекта. В упражнениях по сравнительному анализу мы используем реальную производительность человека в качестве стандарта. Но при обсуждении вопроса о том, должен ли ИИ заменять или дополнять человеческие решения, мы часто сравниваем ИИ с идеализированным человеком. У нас есть представление о высококвалифицированном враче, который прекрасно ведет себя у постели больного, а не о распределении навыков и эмпатии, которые у нас есть на самом деле. Тщательный анализ данных о производительности некоторых из этих тестов является хорошим напоминанием о том, что ИИ не всегда должен быть великолепен, чтобы стать лучше.

Список литературы

Айерс Дж. У. , Поляк А. , Дредзе М. , Лиас Э. С. , Чжу З. , Смит Д. М. (2023). Сравнение ответов врача и чат-бота с искусственным интеллектом на вопросы пациентов, размещенные на общедоступном форуме в социальных сетях. JAMA Internal Medicine, 183 (6), 589-596. https://doi. org/10. 1001/jamainternmed. 2023. 1838


Другие новости: