Кредит: Pixabay/CC0 Public Domain
Предрасположенность к определенным заболеваниям во многом зависит от бесчисленных вариантов в нашем геноме. Однако, особенно в случае генетических вариантов, которые редко встречаются в популяции, влияние на проявление определенных патологических признаков до сих пор было трудно определить.
Исследователи из Немецкого центра исследований рака (DKFZ), Европейской лаборатории молекулярной биологии (EMBL) и Технического университета Мюнхена представили алгоритм, основанный на глубоком обучении, который может предсказывать эффекты редких генетических вариантов.
Статья «Интеграция аннотаций вариантов с использованием сетей с глубоким набором данных ускоряет тестирование редких вариантов» была опубликована в журнале Nature Medicine .
Этот метод позволяет более точно различать людей с высоким риском заболевания и облегчает идентификацию генов, которые участвуют в развитии заболеваний.
Геном каждого человека отличается от генома его собратьев по человечеству миллионами отдельных строительных блоков. Эти различия в геноме известны как варианты. Многие из этих вариантов связаны с определенными биологическими признаками и заболеваниями. Такие корреляции обычно определяются с помощью так называемых исследований ассоциаций по всему геному.
Но влияние редких вариантов, которые встречаются с частотой всего 0,1% или меньше в популяции, часто статистически упускается из виду в исследованиях ассоциаций.
«Редкие варианты в частности часто оказывают значительно большее влияние на проявление биологического признака или заболевания», — говорит Брайан Кларк, один из первых авторов настоящего исследования.
«Таким образом, они могут помочь идентифицировать те гены, которые играют роль в развитии заболевания, и которые затем могут указать нам направление новых терапевтических подходов», — добавляет соавтор исследования Ева Хольткамп.
Чтобы лучше предсказать эффекты редких вариантов, команды под руководством Оливера Стегла и Брайана Кларка из DKFZ и EMBL и Жюльена Ганьера из Мюнхенского технического университета разработали инструмент оценки риска на основе машинного обучения. «DeepRVAT» (тестирование ассоциаций редких вариантов), как назвали исследователи метод, является первым, использующим искусственный интеллект (ИИ) в геномных ассоциативных исследованиях для расшифровки редких генетических вариантов.
Изначально модель обучалась на данных о последовательностях (экзомных последовательностях) 161 000 человек из Британского биобанка. Кроме того, исследователи вводили информацию о генетически обусловленных биологических признаках отдельных людей, а также о генах, вовлеченных в признаки.
Последовательности, использованные для обучения, включали около 13 миллионов вариантов. Для каждого из них доступны подробные «аннотации», предоставляющие количественную информацию о возможных эффектах, которые соответствующий вариант может иметь на клеточные процессы или на структуру белка. Эти аннотации также были центральным компонентом обучения.
После обучения DeepRVAT способен предсказать для каждого человека, какие гены нарушены в своей функции редкими вариантами. Для этого алгоритм использует отдельные варианты и их аннотации для расчета числового значения, которое описывает степень нарушения гена и его потенциальное влияние на здоровье.
Исследователи проверили DeepRVAT на геномных данных из UK Biobank. Для 34 протестированных признаков, т. е. результатов анализов крови, связанных с заболеванием, метод тестирования обнаружил 352 ассоциации с вовлеченными генами, что намного превзошло все ранее существовавшие модели. Результаты, полученные с помощью DeepRVAT, оказались очень надежными и лучше воспроизводимыми в независимых данных, чем результаты альтернативных подходов.
Еще одним важным применением DeepRVAT является оценка генетической предрасположенности к определенным заболеваниям. Исследователи объединили DeepRVAT с полигенной оценкой риска на основе более распространенных генетических вариантов. Это значительно повысило точность прогнозов, особенно для вариантов с высоким риском.
Кроме того, оказалось, что DeepRVAT распознал генетические корреляции для многочисленных заболеваний, включая различные сердечно-сосудистые заболевания, типы рака, метаболические и неврологические заболевания, которые не были обнаружены с помощью существующих тестов.
«DeepRVAT имеет потенциал для значительного продвижения персонализированной медицины. Наш метод функционирует независимо от типа признака и может гибко сочетаться с другими методами тестирования», — говорит физик и специалист по данным Оливер Стегл. Теперь его команда хочет дополнительно протестировать инструмент оценки риска в крупномасштабных испытаниях как можно быстрее и внедрить его в практику.
Ученые уже контактируют с организаторами INFORM, например. Целью этого исследования является использование геномных данных для определения индивидуально подобранных методов лечения для детей с раком, которые переживают рецидив. DeepRVAT может помочь раскрыть генетическую основу некоторых видов детского рака.
«Я нахожу потенциальное влияние DeepRVAT на приложения для редких заболеваний захватывающим. Одной из основных проблем в исследовании редких заболеваний является отсутствие масштабных систематических данных. Используя возможности ИИ и полмиллиона экзомов в британском биобанке, мы объективно определили, какие генетические варианты наиболее существенно нарушают функцию генов», — говорит Жюльен Ганьер из Мюнхенского технического университета.
Следующим шагом является интеграция DeepRVAT в инфраструктуру Немецкого архива феноменов генома человека (GHGA) с целью упрощения приложений в диагностике и фундаментальных исследованиях.
Еще одним преимуществом DeepRVAT является то, что метод требует значительно меньше вычислительной мощности, чем сопоставимые модели. DeepRVAT доступен как удобный для пользователя программный пакет, который можно использовать с предварительно обученными моделями оценки риска или обучать с помощью собственных наборов данных исследователей для специализированных целей.
Дополнительная информация: Интеграция аннотаций вариантов с использованием сетей с глубокими наборами повышает эффективность тестирования редких вариантов, Nature Medicine (2024). DOI: 10.1038/s41588-024-01919-z. www.nature.com/articles/s41588-024-01919-z
Информация о журнале: Nature Medicine Предоставлено Немецким центром исследований рака