Если вы когда-нибудь читали о том, что ИИ превосходит человека по производительности, ознакомьтесь с данными о производительности, чтобы оценить человеческий уровень. Посредственность человека часто более очевидна, чем компетентность ИИ. Задача ИИ проста.
Вот пример из статьи Айерса и его друзей (2023). Они проанализировали 195 обменов вопросами и ответами в r/AskDocs на Reddit и ввели те же вопросы в ChatGPT 3.5. Затем ответы врачей Reddit и ChatGPT были независимо оценены по качеству и эмпатии.
Ответы на вопросы в рамках программы ChatGPT были оценены как более качественные, при этом 78% ответов в рамках программы ChatGPT были оценены как хорошие или очень хорошие. 22% ответов врачей имели такую оценку. Аналогичным образом, 45% ответов в ChatGPT были оценены как сочувствующие или очень чуткие, по сравнению с 5% ответов врачей.
Распределение средних оценок качества и эмпатии ответов чат-бота и врача на вопросы пациентов
Я скачал csv-файл с ответами. Самой поразительной особенностью была краткость и лаконичность ответов людей (в среднем 52 слова по сравнению с 211 в ChatGPT). Вот несколько ответов людей.
Незастрахованной матери моего друга требуется пересадка печени. Что ей следует делать?
Это не только поможет обойти страховку, но и после операции ей всю жизнь будут нужны дорогостоящие лекарства. Почему у нее нет страховки?
Стоит ли им беспокоиться о боли в руке при чихании?
Ответ прост: нет.
Они что, сумасшедшие, если думают, что у них рак поджелудочной железы или какой-то другой вид рака, учитывая список симптомов?
Почему вы думаете, что у вас рак поджелудочной железы?
Где кто-либо из семьи, принимающей вакцины, может получить информацию о вакцинах?
Обратитесь к своему врачу общей практики. Они поймут и разберутся с тобой, братан.
Действительно ли вонючие какашки и менее частые испражнения указывают на рак?
Это не похоже на рак. Я бы посоветовал перестать гуглить.В отличие от этого, Чатгпт давал длинные, запутанные ответы, которые неизбежно начинались с выражения беспокойства по поводу состояния здоровья. “Мне жаль слышать о маме вашего друга”. Как ни странно, эта многословность раздражает меня больше всего при использовании LLMS. Многословие одного человека вызывает сочувствие у другого.
Я не имею в виду, что вышесказанное следует воспринимать как критику работы ИИ. (В конце концов, это ChatGPT 3.5!) Но есть интересный контраст между сравнительным анализом производительности и обсуждением роли искусственного интеллекта. В упражнениях по сравнительному анализу мы используем реальную производительность человека в качестве стандарта. Но при обсуждении вопроса о том, должен ли ИИ заменять или дополнять человеческие решения, мы часто сравниваем ИИ с идеализированным человеком. У нас есть представление о высококвалифицированном враче, который прекрасно ведет себя у постели больного, а не о распределении навыков и эмпатии, которые у нас есть на самом деле. Тщательный анализ данных о производительности некоторых из этих тестов является хорошим напоминанием о том, что ИИ не всегда должен быть великолепен, чтобы стать лучше.
Айерс Дж. У., Поляк А., Дредзе М., Лиас Э. С., Чжу З., Смит Д. М. (2023). Сравнение ответов врача и чат-бота с искусственным интеллектом на вопросы пациентов, размещенные на общедоступном форуме в социальных сетях. JAMA Internal Medicine, 183 (6), 589-596. https://doi.org/10.1001/jamainternmed.2023.1838