Главная страница Новости кинофильмов Игровые новости Новости спорта Новости технологий Автомобильные новости Новости науки Финансовые новости Торрент игры

Почему я не доверяю большинству экспериментальных исследований взаимодействия человека и искусственного интеллекта

Новости

Исследования в области экспериментальной психологии до середины 2010-х годов были в полном беспорядке. Поле было завалено статьями со слабой или даже несуществующей теоретической базой. Экспериментальные данные были недоступны. (Утверждение “данные доступны по запросу” — это своего рода шутка). В экспериментах использовались небольшие выборки и едва ли значимые p-значения. Картотечные ящики были переполнены результатами экспериментов, которые не дали ожидаемого результата. Разветвления в анализе данных позволяли наносить несколько ударов по воротам.

Эти плохие практики были наиболее ярко продемонстрированы после публикации обзора воспроизводимости психологической науки, подготовленного Open Science Collaboration. Тиражировалось 36% статей по психологии. Поток неудачных тиражей продолжается.Однако сегодня ситуация выглядит лучше, по крайней мере, с методологической точки зрения. Предварительная регистрация и открытые экспериментальные материалы и данные становятся обычным делом, если не обязательными. Многие журналы и рецензенты используют эти элементы в качестве основы для публикации. Теперь можно использовать зарегистрированные отчеты. Теория все еще слаба, и эти папки по-прежнему переполнены, но, по крайней мере, наличие хранилищ для предварительной регистрации дает нам представление о том, что в них хранится. PNA и другие таблоиды остаются PNA, но не надейтесь на чудеса.Психология, конечно, была не единственной областью, пострадавшей от кризиса тиражирования и смены практик. Экспериментальная экономика улучшилась, несмотря на то, что пережила кризис в меньшей степени, чем психология. Многие области и связанные с ними журналы внедрили методы открытой науки. Если экспериментальная область за последнее десятилетие не скорректировала свою практику, вам нужно задаться вопросом, что происходит.

Это подводит меня к моему опыту работы с литературой по взаимодействию человека и ИИ и человека-компьютера. Эта литература в основном посвящена тому, как мы получаем более эффективные решения или действия, когда люди взаимодействуют с ИИ, алгоритмами и другими автоматизированными правилами принятия решений. Как мы можем заставить людей использовать полезный ИИ? Как мы добиваемся “дополнительной производительности”, когда производительность комбинации человека и ИИ выше, чем производительность человека или ИИ по отдельности? Как мы помогаем повысить доверие пользователей к инструментам ИИ?

Я пишу и размышляю на эту тему уже почти десять лет. В моей первой статье в журнале Behavioral Scientist («Не прикасайтесь к компьютеру») утверждалось, что часто нам следует отстранять человека от работы. В течение последнего года или около того я работал над тем, как использовать искусственный интеллект для улучшения процесса принятия финансовых решений. Я прочитал сотни экспериментальных работ в этой области в поисках идей и доказательств.То, что я увидел, удручает. Я надеялся найти область, которая извлекла уроки из ошибок психологии. Вместо этого я обнаружил область, работающую так, как будто кризиса репликации никогда не было. Слабая теория. Незначительная предварительная регистрация. Пути разветвления. Эксперименты с недостаточной мощностью. Данные недоступны. (Менее чем в 10% статей, которые я прочитал, данные находятся в открытом доступе в репозитории.) Как правило, там даже не указано, что данные доступны по запросу. Экспериментальные материалы часто хорошо описаны в статье — многие статьи о взаимодействии человека и искусственного интеллекта содержат довольно новые модели и программные интерфейсы, — но деталей недостаточно, чтобы вы могли самостоятельно создавать модели или программное обеспечение. И это не старая проблема. Это статьи за последнее десятилетие, некоторые даже за этот год. Есть исключения и несколько замечательных статей, но я не вижу какой-либо тенденции в правильном направлении.

Я всегда ищу новые идеи для практического применения. И первым шагом в этом процессе является тиражирование. К сожалению, из-за отсутствия открытых данных и экспериментальных материалов мы не можем воспроизвести эксперимент. И когда вы смотрите на слабую теорию и разветвления в анализе, трудно придать результату достаточную убедительность, чтобы проверить его в лабораторных или полевых условиях.

Я отправил электронные письма многим авторам с просьбой предоставить экспериментальные данные и материалы. Примерно в 20% случаев менее чем за 24 часа я получал электронное письмо с материалами и предложением помочь, если они могут оказаться полезными. Как правило, это преподаватели экономических, управленческих и бизнес-школ, которые, как я полагаю, принадлежат к культуре, где практика изменилась. Однако в большинстве случаев я просто не получал ответа. Исследователи компьютерных наук и взаимодействия человека и компьютера: это сверчки.

Часть меня хочет проявить понимание. Они заняты. Стоит ли тратить время на то, чтобы ответить случайному посетителю из Австралии, который написал три предложения примерно следующего содержания: “Мне нравится ваша статья/идея, и я хотел бы использовать ее в контексте финансовых услуг, не могли бы вы поделиться своими данными и материалами”?

Но, с другой стороны, они приложили усилия для публикации статьи (как правило, в рамках конференции) и хотят, чтобы мы отнеслись к их идее серьезно. (На самом деле, возможно, это не то, чего они хотят. Они просто хотят, чтобы публикация была в их личном деле, и идут дальше.) Если их материалы не находятся в беспорядке, то для их распространения требуется минимум усилий. (Если у них нет возможности поделиться, это еще один признак надежности). Кроме того, данные имеют минимальную конфиденциальность, что требует выполнения абстрактных задач в лабораторных условиях. Разместите их в общедоступном хранилище, и вы получите ответы на мои и все последующие запросы.

На крупных форумах публикации также не поощряются к обмену данными. Вот политика обмена данными на некоторых конференциях по взаимодействию человека и искусственного интеллекта, где были представлены многие статьи, которые я прочитал:

Конференция CHI по человеческому фактору в вычислительных системах: “Воспроизводимость: Там, где это уместно, авторам настоятельно рекомендуется предоставлять дополнительные материалы для поддержки практикуйте максимально возможную воспроизводимость результатов исследований. Пожалуйста, ознакомьтесь с приведенными ниже требованиями к дополнительным материалам.” Они показывают, насколько серьезно они к этому относятся, когда раздел дополнительных материалов озаглавлен “Шаг 2. Подготовьте дополнительные материалы (необязательно)”.

Конференция по нейронным системам обработки информации (NeurIPS): “Если какой-либо из основных вкладов в вашу статью зависит от  экспериментального результат, вам настоятельно рекомендуется отправить код, который выдает этот результат. Если вы используете новый набор данных, мы также рекомендуем вам отправить его”.

Конференция ACM по интеллектуальным пользовательским интерфейсам: “Отправка дополнительных материалов (например, анкет, демонстрационных видеороликов приложений, таблиц данных) необязательна, но приветствуется”.

После недолгих поисков я все же нашел следующую политику ACM — она достаточно глубоко спрятана, и я думаю, что большинство отправителей документов даже не стали бы ее читать:

Представление и публикация цифровых артефактов в качестве дополнительного материала

ACM не требует, но настоятельно рекомендует, чтобы авторы опубликованных работ ACM предоставляли доступ к артефактам, используемым для проведения исследований, о которых сообщается в их опубликованных работах.

По отсутствию данных для большинства экспериментальных работ я могу сказать, что авторы используют эту возможность. Добро пожаловать в 2010 год.

Итак, грядет ли кризис тиражирования взаимодействия человека и компьютера?К сожалению, я так не думаю. Когда вам нужен индивидуальный алгоритм машинного обучения или программный интерфейс, репликация просто не произойдет. Хотя большинство статей по психологии не тиражируются, их можно тиражировать в достаточном количестве при низких затратах, чтобы получить представление о надежности этой области. Я боюсь, что слишком много статей о взаимодействии человека и искусственного интеллекта превышают этот порог стоимости.

Вместо этого я ожидаю, что они будут отфильтрованы практиками. Многие читатели литературы по взаимодействию человека и ИИ, как и я, ищут практические решения. Специалисты-практики будут отделять хорошее от плохого, поскольку то, что не работает, не будет использоваться. Культура тестирования A-B в командах искусственного интеллекта и дизайнеров позволяет это. Я вижу то же самое в прикладной науке о поведении (те немногие, кто читает литературу по психологии со стороны). Существует множество идей, которые прикладное сообщество признает неэффективными, несмотря на то, что не было “неудачного” повторения оригинального эксперимента. Мы просто пошли дальше. Эксперимент “знак сверху” уже был популярен среди практиков до того, как появились неудачные повторения и мошенничество.

Я надеюсь, что в долгосрочной перспективе некоторые достойные практики в конечном итоге найдут применение в этой области, и мы сможем просто забыть о текущем объеме исследований. Есть несколько ученых в области компьютерных наук, которые разместили свои экспериментальные установки с открытым исходным кодом на GitHub (спасибо!) и сделали данные доступными. Наверняка кто-то обращает внимание на их работу и придает ей больший вес. Я. Есть также несколько платформ, созданных для использования другими пользователями, хотя, похоже, пока еще нет особой культуры их использования. (Вот один из них, разработанный Гаганом Бансалом и его друзьями, описанный в этой статье.)

Тем временем, я отношусь к прочитанному со всей серьезностью. Некоторое время назад я написал, что мы должны относиться к литературе по психологии с “недоверием по умолчанию”. Если вы видите интересный экспериментальный результат, указывающий на новое явление или результат, измените свои убеждения, но только самым мягким образом. Не доверяйте этому, пока не увидите совпадающие результаты независимых, предварительно зарегистрированных повторений. Я читаю литературу по взаимодействию человека и искусственного интеллекта таким же образом.


Другие новости: