Используя структуру MutRank, обученную с помощью EvoRank, Дэнни Диас и команда профессора Эндрю Эллингтона разрабатывают улучшенную версию белка, критически важного для биопроизводства мРНК-терапевтических препаратов и вакцин. В этом примере модель рекомендует сохранить синие части такими же, как у естественной версии белка, и настоятельно рассмотреть возможность мутации красных частей. Кредит: Дэнни Диас/Техасский университет в Остине
Новая модель искусственного интеллекта, разработанная исследователями Техасского университета в Остине, прокладывает путь к более эффективным и менее токсичным методам лечения и новым профилактическим стратегиям в медицине. Модель ИИ информирует о разработке белковых терапий и вакцин, используя базовую логику эволюционных процессов природы.
Прогресс ИИ, называемый EvoRank, предлагает новый и ощутимый пример того, как ИИ может помочь внести разрушительные изменения в биомедицинские исследования и биотехнологии в более широком смысле. Ученые описали работу на Международной конференции по представлениям обучения (ICLR 2024) и опубликовали соответствующую статью в Nature Communicationsоб использовании более широкой структуры ИИ для выявления полезных мутаций в белках.
Главным препятствием для разработки лучших биотехнологий на основе белков является отсутствие достаточного количества экспериментальных данных о белках для адекватного обучения моделей ИИ для понимания того, как работают конкретные белки, и, таким образом, как проектировать их для конкретных целей.
Ключевой идеей EvoRank является использование естественных вариаций миллионов белков, созданных эволюцией на протяжении долгого времени, и извлечение базовой динамики, необходимой для эффективных решений биотехнологических задач.
«Природа развивала белки на протяжении 3 миллиардов лет, мутируя или заменяя аминокислоты и сохраняя те, которые приносят пользу живым существам», — сказал Дэниел Диас, научный сотрудник в области компьютерных наук и соруководитель группы Deep Proteins, междисциплинарной команды экспертов по компьютерным наукам и химии в Техасском университете.
«EvoRank учится ранжировать эволюцию, которую мы наблюдаем вокруг нас, по сути, выделять принципы, определяющие эволюцию белков, и использовать эти принципы, чтобы они могли направлять разработку новых приложений на основе белков, в том числе для разработки лекарств и вакцин, а также для широкого спектра целей биопроизводства».
UT является домом для одной из ведущих в стране программ по исследованию ИИ и размещает Институт основ машинного обучения (IFML) под руководством профессора компьютерных наук Адама Кливанса, который также является одним из руководителей Deep Proteins.
Проект с участием Deep Proteins и производителя вакцин Джейсона Маклеллана, профессора молекулярных биологических наук Техасского университета, в сотрудничестве с Институтом иммунологии Ла-Хойи будет применять ИИ в исследованиях белковой инженерии для разработки вакцин для борьбы с герпесвирусами.
«Разработка белков с возможностями, которых нет у природных белков, является повторяющейся большой проблемой в науках о жизни», — сказал Кливанс. «Это также тот тип задач, для которых созданы генеративные модели ИИ, поскольку они могут синтезировать большие базы данных известной биохимии, а затем генерировать новые конструкции».
В отличие от AlphaFold от Google DeepMind, который применяет ИИ для прогнозирования формы и структуры белков на основе последовательности аминокислот каждого из них, системы ИИ группы Deep Proteins подсказывают, как лучше всего вносить изменения в белки для определенных функций, таких как повышение легкости, с которой белок может быть разработан для новых биотехнологий.
Лаборатория Маклеллана уже синтезирует различные версии вирусных белков на основе созданных ИИ конструкций, а затем тестирует их стабильность и другие свойства.
«Модели придумали замены, о которых мы никогда бы не подумали», — сказал Маклеллан. «Они работают, но это не то, что мы могли бы предсказать, так что они на самом деле находят новое пространство для стабилизации».
Белковая терапия часто имеет меньше побочных эффектов и может быть безопаснее и эффективнее альтернатив, а глобальная индустрия, оцениваемая сегодня в 400 миллиардов долларов, должна вырасти более чем на 50% в течение следующего десятилетия. Тем не менее, разработка препарата на основе белка — это медленный, дорогостоящий и рискованный процесс.
По оценкам, для десятилетнего пути от разработки препарата до завершения клинических испытаний потребуется около 1 миллиарда долларов или больше; даже в этом случае шансы получить одобрение Управления по контролю за продуктами и лекарствами на новый препарат компании составляют всего 1 из 10.
Более того, чтобы быть полезными в терапии, белки часто должны быть генетически модифицированы, например, чтобы обеспечить их стабильность или позволить им вырабатываться на уровне, необходимом для разработки лекарств, а громоздкий метод проб и ошибок в лабораториях традиционно диктовал такие решения в области генной инженерии.
Если EvoRank, а также связанная с ним созданная UT структура, на которой он построен, Stability Oracle, будут адаптированы для коммерческой деятельности, у промышленности появятся возможности сэкономить время и средства на разработке лекарств, имея дорожную карту для более быстрого создания лучших конструкций.
Используя существующие базы данных последовательностей белков естественного происхождения, исследователи, создавшие EvoRank, по сути, выстроили в ряд различные версии одного и того же белка, которые встречаются в разных организмах — от морских звезд до дубов и людей, — и сравнили их.
В любой заданной позиции в белке может находиться одна из нескольких различных аминокислот, которые эволюция сочла полезными, при этом природа выбирает, скажем, в 36% случаев аминокислоту тирозин, в 29% случаев гистидин, в 14% случаев лизин — и, что еще важнее, никогда лейцин.
Использование этой золотой жилы существующих данных раскрывает базовую логику в эволюции белка. Исследователи могут вычеркнуть варианты, которые, как предполагает эволюция, приведут к уничтожению функциональности белка.
Команда использует все это для обучения нового алгоритма машинного обучения. Основываясь на непрерывной обратной связи, модель узнает, какую аминокислотную природу выбирала в прошлом при эволюции белков, и основывает свое понимание на том, что правдоподобно в природе, а что нет.
Далее Диас планирует разработать «многоколоночную» версию EvoRank, которая может оценивать, как множественные мутации одновременно влияют на структуру и стабильность белка. Он также хочет создать новые инструменты для прогнозирования того, как структура белка связана с его функцией.
Дополнительная информация: Дэниел Дж. Диас и др., Stability Oracle: структура графа-трансформера на основе структуры для определения стабилизирующих мутаций, Nature Communications (2024). DOI: 10.1038/s41467-024-49780-2
Информация о журнале: Nature Communications
Предоставлено Техасским университетом в Остине