В этой статье собраны ключевые выводы экспертного круглого стола “Искусственный интеллект в обзорах литературы: практические стратегии и направления на будущее”, состоявшегося в Бостоне 25 июня, на котором присутствовали специалисты в области исследований и разработок со всего мира. среди участников были ведущие ученые, руководители клинических разработок и специалисты по исследовательской информатике, а также эксперты, работающие в области трансляционной медицины и конвейерной стратегии. Участники представляли как мировые фармацевтические компании, так и развивающиеся биотехнологические компании, что позволило получить сбалансированное представление о проблемах и возможностях, формирующих инновации в области открытия и разработки лекарственных средств.
Обсуждения касались реальных примеров использования, проблем с качеством данных и интеграцией, а также развивающихся взаимоотношений между внутренним инструментарием и внешними платформами искусственного интеллекта. Круглый стол продемонстрировал как энтузиазм, так и реалистичность в отношении роли искусственного интеллекта в открытии лекарств, подчеркнув, что реальный прогресс зависит от высококачественных данных, эффективного управления и инструментов, разработанных с учетом научных нюансов. Доверие, прозрачность и воспроизводимость стали основными принципами создания систем искусственного интеллекта, которые могут поддерживать значимые результаты исследований.
Если вы занимаетесь исследованиями и разработками, будь то в области вычислительной биологии, информатики или научной стратегии, и хотите масштабировать рабочие процессы с литературой в мире с поддержкой искусственного интеллекта, продолжайте читать, чтобы получить практическую информацию, предупреждающие флажки и идеи для улучшения вашего подхода в будущем.
Участники подчеркнули разнообразие пользователей искусственного интеллекта в биофармацевтических компаниях, проведя различие между биологами-вычислителями и биоинформатиками с точки зрения направленности и инструментария. Несмотря на то, что базовые инструменты, такие как Copilot, доказали свою полезность, наблюдается растущий сдвиг в сторону разработки пользовательских моделей ИИ для таких сложных задач, как прогнозирование структуры белка (например, ESM, AlphaFold).
Внедрение ИИ разворачивается как органично и стратегически. Некоторые команды инвестируют во внутреннюю инфраструктуру, такую как общекорпоративные чат-боты и платформы для связывания данных, одновременно преодолевая нормативные ограничения, связанные с использованием внешних инструментов. Во многих организациях действуют строгие правила, регулирующие обработку конфиденциальных данных с помощью искусственного интеллекта, что подчеркивает важность контролируемых сред.
Несколько участников отметили, что они работают на основе литературных источников, уделяя больше внимания дизайну белков и секвенированию. Для этих участников искусственный интеллект применяется на ранних этапах исследований и разработок, прежде чем результаты появляются в публикациях.
Изображение со стока
Участники в основном используют общедоступные базы данных, такие как GeneBank и GISAID, а не полагаются на литературу. Однако проблемы сохраняются: качество данных, несогласованность онтологий и отсутствие структурированных метаданных часто требуют переподготовки общедоступных моделей с использованием собственных данных. Хотя поставщики предоставляют научный контент с помощью крупных моделей знаний, доверие к этим результатам остается неоднозначным. Необработанные структурированные наборы данных (например, RNA-seq) значительно предпочтительнее, чем производные аналитические данные.
Один из участников описал построение внутреннего графа знаний для изучения взаимодействия между лекарственными средствами, подчеркнув проблемы согласования внутренних схем и онтологий при обеспечении качества данных. Другой рассказал о том, как они используют ресурсы с открытым исходным кодом, такие как Kimball и GBQBio, для разработки моделей малых молекул, уделяя особое внимание тщательному аннотированию данных.
Несколько участников выразили обеспокоенность по поводу ложных срабатываний в инструментах поиска, управляемых искусственным интеллектом. Один из участников описал эксперименты с ChatGPT в исследовательском режиме и платформой Rinsit, которые показали проблемы с точностью. Другой участник подчеркнул необходимость предоставления метаданных, которые определяют, подкреплена ли публикация доступными данными, что помогает им избежать исследований, которые предлагают визуализацию без базовых наборов данных.
Постоянной темой было недовольство нежеланием академического сообщества делиться необработанными данными, несмотря на ожидания сделать это. Как отметил один из участников:
“Это конкурентная область — даже в академических кругах. Никто не хочет публиковаться, а потом быть раскрученным. Это их хлеб с маслом. Система не работает — вот почему у нас нет доступа к исходным данным”.
Когда наборы данных не связаны между собой в публикациях, некоторые участники отметили, что они часто обращаются к авторам напрямую, хотя количество откликов непоследовательно. Это свидетельствует о более широкой неудовлетворенной потребности: фармацевтические компании активно ищут высококачественные наборы данных для дополнения своих моделей, особенно за пределами того, что доступно в специализированных хранилищах.
Инструменты мониторинга литературы отличаются высокой точностью и доступностью. Участники отметили трудности с фильтрацией ложных срабатываний и извлечением необработанных данных. Хотя такие инструменты, как ReadCube SLR, позволяют проводить итеративную доработку, управляемую пользователем, большинству платформ по-прежнему не хватает возможностей для постоянного обучения.
Отсутствие полных наборов данных в публикациях, которые часто не публикуются по соображениям конкуренции, остается существенным препятствием. Участники также выразили обеспокоенность по поводу того, что контент, созданный с помощью искусственного интеллекта, может повлиять на будущие учебные данные, и обсудили юридические сложности использования материалов, защищенных авторским правом.
Как отметил один из участников:
“Искусственный интеллект генерирует так много контента, что он сам себя загружает. Новые системы искусственного интеллекта обучаются на основе старых результатов ИИ. Вы получаете все меньше и меньше реального контента и все больше и больше повторяющегося материала.”
Графики знаний получили широкое признание как необходим для интеграции и структурирования разрозненных источников данных. Хотя некоторые участники высказали предположение, что LLM могут в конечном итоге напрямую вывести такие взаимосвязи, все пришли к единому мнению, что графы знаний по-прежнему важны и сегодня. Такие компании, как metaphacts, уже применяют онтологии для семантической индексации наборов данных, что позволяет получать более точные ответы чат-ботов без галлюцинаций и проводить более глубокий исследовательский анализ.
Забегая вперед, участники высказались за то, чтобы результаты ИИ включали показатели доверия, аналогичные статистическим показателям достоверности, для оценки надежности. Инструменты для индексации и отображения дополнительных материалов были сочтены необходимыми для поиска полезных данных.
Один из участников объяснил:
“Было бы полезно иметь показатель достоверности наряду с богатыми метаданными. Если я исследую гипотезу, я хочу знать не только то, что ее подтверждает, но и какие типы данных, например генетические, транскриптомные, протеомные, доступны. Инструмент, который отвечал бы на подобные вопросы и разбивал ответы по типам данных, был бы невероятно полезен. В нем также должно быть указано, существуют ли дополнительные данные, какого они типа и были ли они проанализированы.”
Другое подчеркнуто:
“Достоверность метрика была бы очень полезна. В документах часто содержатся противоречивые или предварительные утверждения, и не всегда ясно, подтверждаются ли они данными или основаны на предположениях. В идеале у нас должны быть инструменты, позволяющие оценивать не только достоверность статьи, но и надежность отдельных утверждений”.
Также был отмечен богатый, хотя и не подтвержденный потенциал препринтов, в частности контента из bioRxiv, которые могут предоставить ценные данные, еще не подвергнутые экспертной оценке.
Круглый стол продемонстрировал как энтузиазм, так и реалистичность в отношении роли искусственного интеллекта в открытии лекарств. Реальный прогресс зависит от высококачественных данных, эффективного управления и инструментов, разработанных с учетом научных нюансов. Доверие, прозрачность и воспроизводимость стали основными принципами создания систем искусственного интеллекта, которые могут поддерживать значимые результаты исследований.
Наше портфолио в Digital Science напрямую связано с ключевыми проблемами, затронутыми в этом обсуждении.
Для организаций, придерживающихся централизованных стратегий в области искусственного интеллекта, наши продукты предлагают совместимые API и среды, богатые метаданными, которые легко интегрируются с пользовательскими внутренними платформами или системами, управляемыми LLM. Внедряя прозрачность, воспроизводимость и структурированную информацию в каждый инструмент, Digital Science помогает командам, работающим в области вычислительной биологии, создавать ИИ-решения, которым они могут доверять.
Статья «ИИ в разработке лекарств: ключевые идеи круглого стола по вычислительной биологии» впервые появилась на Digital Science.