Главная страница Новости мира Новости кинофильмов Игровые новости Новости спорта Новости технологий Автомобильные новости Новости науки Финансовые новости Новости культуры Новости общества

Что мы узнаем, когда все тестируем

Новости

Ниже представлены мои заметки для выступления на сессии «Инновационные методологии в поведенческих науках» на конференции BI Connect 2024, организованной группой по поведенческой экономике правительства Австралии (БЕТА-версия) в Департаменте премьер-министра и Кабинета министров.

В заметках отражены многие из темы более подробно обсуждались в предыдущем посте о мегастудиях.

Когда БЕТА-версия опубликует видео с сеанса, я дам ссылку здесь.

Я собираюсь начать с рассказа о конкурсе, проводимом Netflix.

Они предложили 1 миллион долларов команде, которая могла бы разработать алгоритм, способный предсказывать рейтинги фильмов с точностью на 10% большей, чем у модели Netflix. Соревнование началось в октябре 2006 года, и к июню 2007 года для участия в нем зарегистрировалось более 20 000 команд, а 2000 команд представили свои прогнозы. Премия была присуждена в 2009 году, хотя алгоритм присуждения премии так и не был реализован Netflix.

Соревнования такого рода в настоящее время являются основой значительного прогресса в области искусственного интеллекта. Многие связывают начало нынешнего бума искусственного интеллекта с успехом глубокой сверточной нейронной сети AlexNet, появившейся в 2012 году в рамках крупномасштабного конкурса ImageNet по визуальному распознаванию.

Компания Kaggle внедрила практику проведения таких олимпиад для частных и государственных организаций. Организация представляет задачу и данные, а участники соревнуются в разработке лучшего алгоритма. В настоящее время проводится олимпиада по математике. Вы можете видеть, что на момент, когда я делал этот снимок, участниками было подано уже 1754 заявки.

Мы также стали свидетелями появления неофициальных конкурсов, таких как оценка генеративного ИИ по стандартизированным критериям. Когда выходит новая версия Claude, ChatGPT, Gemini или Llama, они часто публикуют показатели своей производительности в соответствии с этими критериями, как, например, на этом скриншоте.

Подход, лежащий в основе этих соревнований и сравнений, известен как концепция общей задачи. Исследователи соревнуются в решении задачи a, используя один и тот же набор данных, при этом каждый из них оценивается по одной и той же шкале.

Система общих задач обладает многими преимуществами. У нас есть объективные показатели эффективности. Мы можем видеть уровень развития технологий. Мы можем сравнивать яблоки с яблоками.

У структуры общих задач также есть некоторые недостатки, к которым я вернусь позже.

Мегастудии

Существует ли научная версия общей структуры задач для изучения поведения?

По мнению некоторых ученых-бихевиористов, ответ положительный — система мега-исследование. Впервые мегаисследование было проведено в 2021 году, и его идея заключается в том, чтобы протестировать множество вмешательств в рамках одного масштабного эксперимента. Не тестируйте одно вмешательство в сравнении с контрольным. Тест 50. Поставьте эти вмешательства в прямую конкуренцию друг другу.

Идея тестирования многих вмешательств таким образом возникла еще до того, как ученые-бихевиористы надели свою маркетинговую шляпу, назвали это мегастудией и опубликовали в Nature. Но за последние пару лет частота проведения мегаисследований, безусловно, возросла.

Существует довольно простой пример проведения мегаисследований. У нас есть много исследований, демонстрирующих влияние специфических поведенческих вмешательств. У нас есть социальные нормы. Фрейминг потерь. Дефицит. Стимулы. И так далее. Что более эффективно в достижении желаемого изменения поведения? Мы часто не можем ответить на этот вопрос, поскольку в научной литературе различные методы вмешательства напрямую не сравниваются друг с другом. В типичной научной статье сравнивается одно вмешательство или класс аналогичных вмешательств с контрольным.

Провести такое сравнение позволяет масштабное исследование.

Увеличение посещаемости тренажерного зала

Для иллюстрации позвольте мне рассказать о самом громком мегаисследовании, которое, как я уже упоминал, было опубликовано в Nature.Кэтрин Милкман и ее друзья (2021) протестировали 54 метода воздействия, чтобы увеличить количество посещений тренажерного зала 61 000 участников эксперимента.Членов национальной сети тренажерных залов спросили, хотят ли они записаться на “научно обоснованную программу тренировок для формирования привычки”. Те, кто зарегистрировался, сформировали группу испытуемых и были случайным образом распределены по условиям эксперимента, включая контроль, при котором они больше не вступали в контакт.

В течение следующих 28 дней участники подвергались вмешательствам, включавшим различные сочетания стимулов и сообщений. Например, участники группы лечения “Социальные нормы (высокие и возрастающие)” получили шесть текстовых сообщений-напоминаний такого содержания, как:

Время для мелочей! Какой процент американцев в 2016 году занимался спортом не менее 3 раз в неделю? Ответьте 1 для 61%, 2 для 64%, 3 для 70% или 4 для 73%.

Если они ответят 1, 2 или 3, они получат ответное сообщение, в котором говорится:

На самом деле это 73%. И это больше, чем 71% в 2015 году.

Они также получали электронные письма с аналогичными фактами.

Те, кто входил в группу “Социальная норма (низкая)”, получали сообщения с менее радужной ситуацией:

Время для мелочей! Какой процент американцев занимался спортом по крайней мере 3 раза в неделю в 2016 году? Ответ 1 — для 35%, 2 — для 38%, 3 — для 41% или 4 — для 44%.

Кроме того, здесь, похоже, нет никаких сомнений в использовании обмана.

Некоторые вмешательства включали стимулы. Например, участники программы “Жесткость вознаграждается” получали 500 баллов Amazon стоимостью 1,79 доллара за каждое запланированное посещение тренажерного зала и 250 баллов Amazon стоимостью 0,90 доллара за посещение тренажерного зала в другое время.

На этом рисунке представлены основные результаты всех вмешательств, а размеры эффекта и их 95%-ные доверительные интервалы представлены синими линиями. Вмешательство с наибольшим эффектом включало стимулы для возвращения в спортзал после пропущенной тренировки.(2021a) Рисунок 1. Было обнаружено, что двадцать четыре из 53 вмешательств оказали статистически значимый эффект по сравнению с контролем отсутствия сообщений, увеличив количество посещений на 9-27%. Это составляет от 0,14 до 0,40 дополнительных еженедельных посещений тренажерного зала по сравнению с контрольным средним показателем в 1,48 посещения в неделю.

Эта цифра также содержит прогнозы, сделанные специалистами в области поведения, учеными в области общественного здравоохранения и непрофессионалами — оранжевые полосы справа указывают на завышение эффекта и отсутствие какой-либо взаимосвязи между предсказаниями и результатами. Позже я кратко коснусь этих предсказаний.

Повышение уровня вакцинации

В другом крупном исследовании, проведенном большинством тех же авторов, опубликованном в том же году (2021), рассматривался ряд сообщений, призывающих к вакцинации. Например:

Джон, это напоминание о том, что вакцина от гриппа была зарезервирована для вашего приема у доктора Смита. Пожалуйста, попросите вашего врача сделать прививку, чтобы убедиться, что вы ее получите.

Опять же, это немного вводит в заблуждение, поскольку резервной вакцины не было, но, как вы можете видеть из этой таблицы, именно выделенная доза против гриппа была наиболее эффективной.

Milkman et al.  (2021) Рисунок 1

Помимо прямой сопоставимости, у megastudies есть еще несколько приятных особенностей. Экономия достигается за счет масштабирования: несмотря на то, что индивидуальное мегаисследование является масштабным мероприятием, затраты на каждое мероприятие могут быть ниже.

В мегаисследованиях также предусмотрена встроенная функция публикации нулевых результатов. Мы видим как успешные вмешательства, так и неудачи.

Обобщающие

Но что вы, как практик или ученый-бихевиорист, можете сделать с результатами мегаисследования?

Если вы являетесь той конкретной сетью тренажерных залов или поставщиком вакцинации, для которой проводилось мега-исследование, вы можете масштабировать наиболее успешные сообщения.

Но что, если вы работаете в другом контексте? Что, если у вас другая сеть тренажерных залов с другой демографией клиентов? Студия йоги? Шахматный клуб? Университет, поощряющий посещение занятий студентами? Организация, занимающаяся профилактикой заболеваний?Как утверждают авторы этих статей, фундаментальная проблема, на решение которой направлено мегаисследование, заключается в отсутствии сопоставимости вмешательств, апробированных в различных контекстах. Контекст двух разных экспериментов может быть настолько разным, что неразумно спрашивать, какое вмешательство является более эффективным.

Но если мы не можем легко сравнивать эксперименты в разных контекстах, то насколько вы можете быть уверены в том, что порядок или величина эффекта вмешательства в мегаисследовании будут отражены в другом контексте?

Мы находимся в ситуации «подвоха-22». Чем серьезнее проблема сопоставимости, которую пытается решить мегаисследование, тем менее полезными оказываются результаты мегаисследования для применения в других контекстах.

В конечном счете,вот почему хорошим политическим или деловым советом, как правило, должно быть проведение собственного эксперимента.

Существует также вопрос о том, как адаптировать конкретные мероприятия к новым условиям. При разработке сообщения существует множество степеней свободы, начиная от визуального оформления и заканчивая точной формулировкой, выбором носителя и времени. В результате ваше переведенное выступление может не отражать того, что способствовало успеху предыдущего выступления. Копия может не передавать концепцию. Формулировка может привести к путанице. И так далее.

Это сообщение из первого мега-исследования о прививках было наихудшим:

Сейчас сезон гриппа, и сделать прививку от гриппа в вашем медицинском центре — это простая вещь, которую вы можете сделать, чтобы быть здоровым!

Кто был их копирайтерами?! Я бы сказал, что низкая производительность этого сообщения дает мало информации об эффективности обмена сообщениями о здоровье.

Эта проблема с реализацией снова указывает на совет: тестируйте в своем собственном домене. Мегастудия не спасет вас от этого.

Мощность

И это подводит меня, возможно, к самой большой проблеме, связанной с мегастудиями.

На первый взгляд, преимущество мегастудий в том, что они собирают большую выборку. В общей сложности 61 293 участника мегастудии в тренажерном зале — это звучит солидно.Но не нужно много думать, чтобы понять, что в 54 мероприятиях (включая контрольное) в среднем участвовало не более 1000 человек на одно мероприятие. И это относительно небольшое число участников означает, что у нас мало возможностей, то есть низкая способность выявлять любые существующие эффекты и проводить различие между вмешательствами.

Например, в то время как наибольший эффект от мегастудии в тренажерном зале был связан с бонусом за возвращение после пропущенной тренировки, этот эффект был неотличим примерно от половины других вмешательств.

У мега-исследования по вакцинации та же проблема. 19 вмешательств, проведенных среди 47 000 участников, повысили эффективность вакцинации в среднем на 2,1 процентных пункта, но авторы отметили, что они не могут отвергнуть нулевую гипотезу о том, что все 19 эффектов имеют одинаковую истинную ценность. Мегастудия, в ходе которой мы не можем определить, какое сообщение сработает.

Не во всех мегастудиях есть такая проблема, но они выявляют проблему, с которой мы всегда сталкиваемся как экспериментаторы. Увеличение числа вмешательств снижает эффективность, если мы не сможем соразмерно увеличить размер выборки. Есть компромисс, и иногда лучше обойтись меньшим количеством вмешательств.

Теория построения

Помимо прикладного характера этих мегастудий, стоит задать еще один вопрос: что они предлагают науке? В конце концов, в Nature была опубликована главная статья о мегаисследованиях.

Чтобы ответить на этот вопрос, позвольте мне сначала описать эксперимент Google.

Когда вы заходите в Google онлайн, они действительно хотят, чтобы вы переходили по рекламным ссылкам. Ссылка какого цвета с наибольшей вероятностью вызовет переход по ней?

Google не спешит отвечать на подобные вопросы. В одном эксперименте они протестировали 41 оттенок синего. Хотя этот эксперимент был высмеян посторонними как эпизод “50 оттенков синего”, он принес дополнительный доход в размере 200 миллионов долларов в год.

Какое место занимают мегастудии между этим экспериментом Google — ценным мероприятием по оптимизации, имеющим ограниченную научную ценность, — и исследованием, призванным рассказать нам кое-что о том, как устроен мир?

На сегодняшний день я бы сказал, что megastudies ближе к концу спектра Google. Они полезны для оптимизации задачи, но дают ограниченную обратную связь с нашим теоретическим пониманием поведения человека.

Каждое вмешательство, протестированное в рамках мегаисследования, основано на эмпирических закономерностях, наблюдавшихся в предыдущих экспериментах. Но вместо того, чтобы взять на себя задачу придать этому массиву эмпирических данных некоторую теоретическую основу, мегастудии превратились в скачки, ориентированные на конкретную предметную область. Как политик или владелец бизнеса, вы могли бы извлечь выгоду. Но для науки выгода меньше.Признаюсь, я задаю слишком много вопросов. Я хочу, чтобы наука о поведении дала теоретическое представление о том, что происходит. Эти исследования предназначены для проверки того, как увеличить посещаемость спортзалов или уровень вакцинации. Мы не можем всегда иметь все.Однако этот недостаток теории не обходится без издержек. Например, как я уже отмечал, когда практикующих попросили предсказать порядок распределения эффектов для мегастудий в тренажерном зале и вакцинации, они понятия не имели — прогнозы для мегастудии в тренажерном зале представлены оранжевыми полосами. У нас нет теоретической базы, которая могла бы превзойти здравый смысл или подсказать нам, какие вмешательства с наибольшей вероятностью будут эффективными. Вам приходится сталкивать как можно больше вмешательств, чтобы понять, какое из них сработает. Если бы у нас была теория получше, мы, возможно, смогли бы отобрать варианты для более масштабного исследования. Мегастудии отчасти являются симптомом этой неудачи.

Итак, что делать дальше. Какова будущая роль мегастудий?

Основываясь на подходе к общей задаче

Я считаю, что в подходе к общей задаче есть нечто большее. Выполнение общих задач стало катализатором некоторых ключевых моментов в машинном обучении и искусственном интеллекте. Последовательное повышение производительности стало ощутимым свидетельством прогресса.

Индекс искусственного интеллекта 2024

Можем ли мы еще больше приблизить мегастудию к подходу, основанному на общих задачах? Турниры по общим задачам обычно создают открытое игровое поле, делая набор данных общедоступным. Принять участие может любой желающий. У людей могут быть множественные трещины.

Сравните это с опубликованными на сегодняшний день мега-исследованиями, проведенными относительно узким кругом ученых-бихевиористов. Я не вижу никаких доказательств того, что команды, занимающиеся исследованиями поведения, обладают навыками разработки сообщений помимо маркетологов — в конце концов, они не могли предсказать, какие из них будут более эффективными, — так как же мы могли бы открыть и демократизировать тех, кто занимается вмешательством? Ранее в этом году я видел открытый конкурс на участие в мега-исследовании счастья, и это отличный шаг, хотя я не уверен, что он попал в руки каких-либо маркетинговых агентств. Надеюсь, они набрали каких-нибудь чудаков.

Большинство распространенных фреймворков задач также допускают итеративное исследование и прогресс. Команды могут получать доступ к данным вне турниров. Пользователи могут неоднократно возвращаться к решению проблемы. В отличие от megastudies, у нас есть игра на один раз.

Так почему бы нам не проводить этот эксперимент с сетью тренажерных залов или провайдером вакцинации каждый год? Запросите открытые заявки, а затем сократите их количество до необходимого количества вмешательств. Укажите ряд лучших вмешательств за предыдущие годы.Однако, если мы предпримем эти дополнительные шаги, ограничение рамок общих задач приобретет все большее значение для мегаизучения: переобучение. Если вы снова и снова проводите конкурс по увеличению посещаемости тренажерного зала, существует большая вероятность того, что одно из мероприятий будет направлено на улучшение характеристик этого тренажерного зала и его сотрудников. Отличные результаты, но недостаточная обобщенность.

Также наблюдается снижение предельного выигрыша. Модель, получившая приз Netflix, так и не была реализована, поскольку другие, более дешевые комбинации моделей обеспечивали большинство тех же преимуществ. Производительность по многим тестам машинного обучения стабилизировалась или достигла максимума, что потребовало разработки новых тестов.Но есть кое-что, что можно сказать о процессе, в ходе которого мы учимся и развиваем то, чему научились, а не просто пробуем (надеюсь, масштабируем) и публикуем. И если бы megastudies более серьезно отнеслись к идее создания megastudies — платформы для решения общих задач, — megastudies могли бы внести свой вклад в это.

Эти показатели производительности на вашем экране просто потрясающие. В течение десятилетия многие задачи превратились из невыполнимых для машин в задачи, значительно превосходящие человеческие, несмотря на прогнозы о том, что эти достижения будут достигнуты через десятилетия. Аналогичная кривая в понимании движущих сил человеческого поведения была бы удивительной вещью.

На этом я и закончу на сегодня.

Список литературы

Милкман К. Л., Громет Д., Хо Х., Кей Дж. С., Ли Т. У., Дакворт А. Л. (2021). Масштабные исследования повышают эффективность прикладной науки о поведении. Nature, 600 (7889), 478-483. https://doi.org/10.1038/s41586-021-04128-4 Милкман К. Л., Патель М. С., Ганди Л., Граси Х. Н., Громет Д. М., Дакворт А. Л. (2021). Большое исследование текстовых подсказок, побуждающих пациентов сделать прививку на предстоящем приеме у врача. Труды Национальной академии наук, 118 (20), e2101165118. https://doi.org/10.1073/pnas.2101165118


Другие новости: