Человеческие критерии, как правило, не впечатляют

Если вы когда-нибудь читали о том, что ИИ превосходит человека по производительности, ознакомьтесь с данными о производительности, чтобы оценить человеческий уровень. Посредственность человека часто более очевидна, чем компетентность ИИ. Задача ИИ проста.

Вот пример из статьи Айерса и его друзей (2023). Они проанализировали 195 обменов вопросами и ответами в r/AskDocs на Reddit и ввели те же вопросы в ChatGPT 3.5. Затем ответы врачей Reddit и ChatGPT были независимо оценены по качеству и эмпатии.

Ответы на вопросы в рамках программы ChatGPT были оценены как более качественные, при этом 78% ответов в рамках программы ChatGPT были оценены как хорошие или очень хорошие. 22% ответов врачей имели такую оценку. Аналогичным образом, 45% ответов в ChatGPT были оценены как сочувствующие или очень чуткие, по сравнению с 5% ответов врачей.

Распределение средних оценок качества и эмпатии ответов чат-бота и врача на вопросы пациентов

Я скачал csv-файл с ответами. Самой поразительной особенностью была краткость и лаконичность ответов людей (в среднем 52 слова по сравнению с 211 в ChatGPT). Вот несколько ответов людей.

Незастрахованной матери моего друга требуется пересадка печени. Что ей следует делать?

Это не только поможет обойти страховку, но и после операции ей всю жизнь будут нужны дорогостоящие лекарства. Почему у нее нет страховки?

Стоит ли им беспокоиться о боли в руке при чихании?

Ответ прост: нет.

Они что, сумасшедшие, если думают, что у них рак поджелудочной железы или какой-то другой вид рака, учитывая список симптомов?

Почему вы думаете, что у вас рак поджелудочной железы?

Где кто-либо из семьи, принимающей вакцины, может получить информацию о вакцинах?

Обратитесь к своему врачу общей практики. Они поймут и разберутся с тобой, братан.

Действительно ли вонючие какашки и менее частые испражнения указывают на рак?

Это не похоже на рак. Я бы посоветовал перестать гуглить.В отличие от этого, Чатгпт давал длинные, запутанные ответы, которые неизбежно начинались с выражения беспокойства по поводу состояния здоровья. “Мне жаль слышать о маме вашего друга”. Как ни странно, эта многословность раздражает меня больше всего при использовании LLMS. Многословие одного человека вызывает сочувствие у другого.

Я не имею в виду, что вышесказанное следует воспринимать как критику работы ИИ. (В конце концов, это ChatGPT 3.5!) Но есть интересный контраст между сравнительным анализом производительности и обсуждением роли искусственного интеллекта. В упражнениях по сравнительному анализу мы используем реальную производительность человека в качестве стандарта. Но при обсуждении вопроса о том, должен ли ИИ заменять или дополнять человеческие решения, мы часто сравниваем ИИ с идеализированным человеком. У нас есть представление о высококвалифицированном враче, который прекрасно ведет себя у постели больного, а не о распределении навыков и эмпатии, которые у нас есть на самом деле. Тщательный анализ данных о производительности некоторых из этих тестов является хорошим напоминанием о том, что ИИ не всегда должен быть великолепен, чтобы стать лучше.

Список литературы

Айерс Дж. У., Поляк А., Дредзе М., Лиас Э. С., Чжу З., Смит Д. М. (2023). Сравнение ответов врача и чат-бота с искусственным интеллектом на вопросы пациентов, размещенные на общедоступном форуме в социальных сетях. JAMA Internal Medicine, 183 (6), 589-596. https://doi.org/10.1001/jamainternmed.2023.1838

Другие новости:

Отличное интервью Bloomberg: Теперь как вернуться

Экономический рост Китая находится на заданном уровне, несмотря на трудности

Я Так Стар, Что Помню Времена, Когда Людей Иногда Увольняли За То, Что Они Плохо Справлялись Со Своей Работой

2025 Лучших инвестиционных книг года: Альманах биржевых трейдеров

Тест на интуицию