Победить в СВО

Мутации в генах — частая причина заболеваний. Сегодня известно более 5 тыс. мутаций, приводящих к изменениям в последовательностях белков и вызывающих наследственные заболевания, их скрининг активно внедряется в клиническую практику. В то же время оценить, как на фенотип человека повлияют мутации в кодирующих регионах генов, по-прежнему довольно сложно. О создании моделей машинного обучения, предсказывающих появление клинических симптомов при изменениях в регуляторных областях генома, рассказал Дмитрий Дмитриевич Пензар, инженер отдела молекулярных технологий Пироговского Университета.

Описание подходов регуляторной геномики

Машинное обучение применительно к работе с геномом человека — бурно развивающееся и перспективное направление. Основная его задача — научиться по мутациям в геноме индивида (чаще всего это однонуклеотидные замены) предсказывать, будет ли у человека какое-то клинически значимое заболевание.

В настоящее время усилия множества исследователей направлены на кодирующие мутации, то есть на изменения гена, которые приводят к аминокислотным заменам в белке. Уже созданы клеточные атласы, отражающие результаты влияния таких мутаций на фенотип клетки. Их достаточно для создания эффективных моделей машинного обучения.

Наш коллектив (сотрудники отдела молекулярных технологий Пироговского Университета вместе с сотрудниками группы регуляции биосинтеза белка из Института белка РАН) занимается гораздо менее изученной областью — мутациями,  которые затрагивают регуляторные области гена

Изменения могут коснуться как области промотора, так и регуляторных участков в интронах. И может сложиться такая ситуация, когда у человека правильная структура белка, но из-за мутации в регуляторном участке происходит изменение уровня экспрессии гена, в результате наблюдается либо недостаток продукции белка, либо, наоборот, переизбыток. И то, и другое может стать причиной развития заболевания. Примеров подобных регуляторных мутаций очень много, но они существенно хуже исследованы, чем кодирующие, потому что их сложнее идентифицировать.

Влияние мутаций на активность регуляторных областей можно анализировать на полногеномных данных. Под термином «активность» в данном случае подразумевается влияние последовательности ДНК на экспрессию гена. Если последовательность никак не влияет на экспрессию гена, то она считается неактивной. Данные об активности различных последовательностей используют для разработки модели машинного обучения, которая сможет предсказать возможное влияние мутации на организм.

Данные об активности участков генома обычно измеряются на референсном геноме. В ходе экспериментальной работы собирают данные об активности разных участков его последовательности. В результате получается, что для каждого генома есть множество сигналов, которые «вдоль него» измерены. Можно сравнить это с аудиодорожкой: где-то открытая область, высокий сигнал, в другом месте — низкий сигнал. Машинная модель (или нейронная сеть) пытается эту аудиодорожку предсказать по нуклеотидной последовательности.

Несмотря на то что разработанные сегодня модели машинного обучения хорошо показывают себя в некоторых лабораторных ситуациях, применять их в клинической диагностике невозможно.

Одна из главных проблем работы таких моделей связана с размером генома человека. Несмотря на то что в нем три миллиарда букв, значительная его часть представлена повторяющимися элементами и высокогомологичными последовательностями. В результате реальный объем данных, которые доступны модели машинного обучения, недостаточен, чтобы она освоила реальную регуляторную грамматику и смогла отфильтровать ложные сигналы.

Чтобы преодолеть эту проблему, был разработан метод, позволяющий оценивать активность не фиксированной последовательности генома, а набора его участков. Можно, например, выбрать 80-нуклеотидные, или 200-нуклеотидные случайные последовательности, или какие-то неслучайные наборы последовательностей, которые представляют научный интерес в конкретном исследовании. Например, это могут быть участки промоторов или зоны открытого хроматина, которые могут влиять на экспрессию генов. 

Изучение таких наборов позволяет компьютеру определить, какую именно информацию стоит учитывать при анализе. Акты обучения с использованием вышеописанной системы получили название «массовые параллельные репортерные эксперименты».

Особенность большей части таких экспериментов в том, что активность последовательностей измеряют не в условиях целого организма, а в клеточной культуре. 

В большинстве случаев последовательности встраивают в плазмиды, которыми трансфецируют клетки. В этом случае, очевидно, экспериментальные данные часто не отражают того, как исследуемые последовательности ведут себя в организме человека, где они находятся совершенно в ином окружении.

Научный коллектив под руководством профессора Викрама Агарвала (Vikram Agarwal, Франция, Sanofi) использовал вместо плазмиды лентивирусный вектор, который позволяет встроить тестируемые последовательности в геном эукариотической клетки. Тогда последовательность функционирует в более естественном окружении. Кроме того, с помощью такой конструкции возможно внедрение генетического материала в более широкий спектр клеток. 

В ряде параллельных репортерных экспериментов коллективом были получены данные об активности 600 тыс. регуляторных элементов разного рода и предложена модель машинного обучения. Однако она работала гораздо хуже, чем модели, обученные на основе геномных данных.

Наш исследовательский коллектив к этому моменту для совершенно иной задачи разработал модель машинного обучения LegNet, в архитектуру которой были встроены самые последние программно-технологические решения из области компьютерного распознавания образов. С этим проектом мы победили в конкурсе DREAM в 2022 году. Мы обучили эту модель на данных, полученных группой В. Агарвала, и обнаружили, что наша модель способна предсказывать активность регуляторных последовательностей на том же уровне, что и модели, обученные на полногеномных данных.

Полученные нами данные были столь впечатляющи, что профессор Агарвал предложил нам подготовку совместной статьи. 

В рамках этой работы мы оптимизировали нашу модель машинного обучения и провели оценку необходимого и достаточного количества данных для ее работы на разных клеточных линиях. Оказалось, что наша разработка требует относительно небольшого количества данных (от 50 тысяч до 100 тысяч измерений — в зависимости от чистоты сигнала), что делает её перспективной для решения различных задач в области геномики. 

Совместная статья с группой В. Агарвала была опубликована в журнале Nature в начале 2025 года.

Очень хорошие результаты были получены при обучении модели для предсказания влияния мутаций на открытость хроматина в клетках крови и печени. 

Модель обучали с помощью двух баз данных, разработанных под руководством Ивана Владимировича Кулаковского (ведущий научный сотрудник группы регуляции биосинтеза белка из Института белка РАН), информация о которых доступна в статьях:

- Abramov S., Boytsov A., Bykova D. et al. Landscape of allele-specific transcription factor binding in the human genome. Nat. Commun. 2021; 12 (1): 2751 (https://doi.org/10.1038/s41467-021-23007-0);

- Buyan A., Meshcheryakov G., Safronov V. et al. Statistical framework for calling allelic imbalance in high-throughput sequencing data. Nat. Commun. 2025; 16 (1): 1739 (https://doi.org/10.1038/s41467-024-55513-2). 

Перспектива применения результатов исследований в клинической практике

Машинное обучение в регуляторной геномике — относительно новая область исследований: первые эксперименты датированы 2011 годом, а массовые начались только в 2019 году. Для получения адекватных машинных моделей, которые можно использовать в практической медицине, пока еще очень далеко. И связано это в первую очередь с недостатком данных.

Так, серий массовых параллельных репортерных экспериментов проведено на сегодня не более 500, причем с учетом повторных реплик одного и того же набора последовательностей. При этом, как правило, разные лаборатории в экспериментах используют набор из трех-пяти стандартных клеточных линий (с небольшими вариациями), поэтому знания об активности последовательностей в разных клетках по-прежнему неполноценны.

Мало того, что количество экспериментов минимальное, так они еще и выполнены на относительно коротких последовательностях — длиной 200-600 нуклеотидов. Хотя эти последовательности и вносят наибольший вклад в регуляцию генной экспрессии, охарактеризованы случаи, когда регуляторная мутация, вызывающая заболевание, находится на удалении около 500 тыс. нуклеотидов или более от регулируемого гена. Поэтому, чтобы регуляторную геномику ввести в клиническую практику, необходимо научиться оценивать эффекты, происходящие в окне хотя бы около 10 тыс. нуклеотидов.

Надо еще отметить, что в настоящее время проведен анализ только ограниченного числа 200-нуклеотидных последовательностей. А теоретически их огромное количество, перебрать все варианты технически невозможно. То есть надо научиться выбирать те последовательности, которые с наибольшей вероятностью будут полезны для обучения модели. Как это делать — отдельный вопрос, который пока тоже плохо изучен.

Конечно, кроме параллельных репортерных экспериментов, есть и другие источники данных. Например, технология EXTRA-Seq позволяет получать информацию о дальних взаимодействиях между искусственно сконструированными регионами генома. Однако массовое внедрение этой технологии и накопление данных пока только началось... Вероятно, что этот процесс приведет к значимому результату лет через 10.

Еще один способ, позволяющий изучать геном, — технология CRISPR-Cas. Она позволяет создавать множество контролируемых мутаций в геноме на известном расстоянии друг от друга и может дать материал для машинного обучения. Пока способ применяется в ограниченных масштабах, а число мутаций, которые можно проверить, не является большим. Однако у метода большие перспективы.

Наконец, для получения дополнительной информации можно использовать результаты анализа геномов единичных клеток (single-cell-анализ). Но это сложный метод, доступный ограниченному числу лабораторий.

Помимо нехватки данных, проблемой является то, что пока не найден эффективный способ комбинировать, объединять имеющуюся информацию и отфильтровывать лишнее. 

Перспективы развития машинного обучения в регуляторной геномике

Сейчас наша работа по большей части фундаментальная. Мы предоставили архитектуру нейросети, которая позволяет эффективно работать с массовыми экспериментами и извлекать из них регуляторную грамматику для дальнейшего понимания внутриклеточного взаимодействия. Наша модель находится в открытом доступе, любой исследователь может на собственных данных обучить ее. Уже несколько лабораторий пробовали это сделать.

Хотя до клинической диагностики пока далеко, уже с её помощью можно предсказать или объяснить эффект мутаций, которые вызывают подозрения у врачей.

Мы планируем дальше развивать направление с обучением модели. Большая проблема — наличие разных экспериментов, которые очень трудно свести к одному знаменателю. Отсутствие стандартизованной системы представления и обработки данных затрудняет сравнение работы различных моделей машинного обучения. Каждая лаборатория обрабатывает информацию по-своему, на основании одних и тех же по-разному обработанных данных можно получить разные результаты в моделях машинного обучения. Поэтому одна из задач, которые мы перед собой ставим, — создание общего формата представления данных, который бы позволил сравнивать и объединять усилия разных научных коллективов.

Наша задача — сделать так, чтобы человек мог проверить свои идеи по построению архитектуры модели машинного обучения в задачах регуляторной геномики в три-четыре щелчка и получить сравнение эффективности ее работы с работой имеющихся моделей.

Прямой аналог такой системы — MNIST (сокращение от Modified National Institute of Standards and Technology) — объемная база данных образцов рукописного написания цифр. Эта база данных является стандартом, предложенным Национальным институтом стандартов и технологий США для сопоставления методов распознавания изображений с помощью машинного обучения. Все примеры изображений, на основе которых проводится обучение и тестирование систем, нормализированы, прошли сглаживание и приведены к серому полутоновому изображению размером 28 x 28 пикселей.

Мы хотим сделать то же самое для регуляторной геномики. Одновременно с этим мы работаем над улучшениями архитектуры LegNet, чтобы адаптировать ее для работы с персонифицированными геномами.

Wsem обо Всём
Автор: РНИМУ им. Н. И. Пирогова
Последние публикации автора


Путин призвал Европу включаться в мирный процесс вместо создания помех

Это заявление В.В. Путина является лишь крайним эпизодом в длинной истории протянутой руки, которую Европа постоянно отвергает.

МИД России уже неоднократно подчёркивал, что Европу никто не отстранял от переговоров по Украине — они сами прекратили контакты с РФ и теперь мешают процессу урегулирования.В марте 1954 года СССР официально направил заявку на вступление в НАТО. Цель, как говорилось в заявке, была в том, чтобы Альянс «перестал быть закрытым военным об... Читать 1 мин.

Путин призвал Европу включаться в мирный процесс вместо создания помех

Зампред Совбеза России Дмитрий Медведев прокомментировал новую стратегию нацбезопасности США

Американцы продолжают дрессировать обезумевший Евросоюз.

Естественно, для того, чтобы больное животное вспомнило, кто истинный хозяин цирка. Даже Маск (в ответ на штраф по отношению к Х) приложил к этому руку, пожелав ЕС распада. Неплохо! Нам в целом это на пользу. Лучше великодержавный прагматизм Трампа, чем глобалистский маразм Байдена. В этом плане выделяется новая Стратегия национальной безопасн... Читать 3 мин.

Зампред Совбеза России Дмитрий Медведев прокомментировал новую стратегию нацбезопасности США

У России своя стратегия Победы

Новая стратегия нацбезопасности США — это стратегия обмана.

Во времена Трампа другого от Империи лжи ждать и не приходится. Её цель дистанцировать США от войны на Украине и полноценно втянуть в эту войну страны ЕС.Шархан понял, что впереди огненный цветок, который опалит усы и заставит ретироваться… Хищник меняет тактику, с рычащего и грозного тигра на вальяжного и даже покладистого кота, однако ни на йоту ... Читать 1 мин.

У России своя стратегия Победы

Представлена программа X форума «Время инноваций»: фокус — на технологиях будущего

11–12 декабря в Ташкенте эксперты, технологические директора и инвесторы обсудят, как инновации перестраивают отрасли и создают новые рынки.

Акцент на трансформацию . Инновации вышли за рамки локальных проектов и стали ключевым фактором глобальной конкурентоспособности. Если прежде фокус был направлен на внедрение отдельных технологических решений, то сейчас основной акцент смещается на создание целостных экосистем и трансформацию целых отраслей экономики. Практический опыт ведущих комп... Читать 3 мин.

Представлена программа X форума «Время инноваций»: фокус — на технологиях будущего

Почему Европа заявляет, что Россия нападет на неё

Президент России назвал заявления о якобы готовящемся нападении России на Европу «полной чушью и прямой ложью» и «смешными» для Москвы.

По мнению Владимира Путина, политики, которые распространяют эту «страшилку», либо «не в себе», либо «жулики».Запугивание собственного населения используется для нескольких целей:. Искусственно созданная угроза нападения России заставляет страны Европы «укреплять свой оборонный потенциал» и выделять огромные средства оборонной промышленности.2. Политики... Читать 2 мин.

Почему Европа заявляет, что Россия нападет на неё
Редакция портала: privet@wsem.ru
Создайте канал и публикуйте статьи и новости бесплатно!
Национальный Курс
Национальный Курс
27.11.2025
Владимир Путин утвердил новую Стратегию государственной национальной политики России
Документ распространяется до 2036 года, основные положения.
Национальный Курс
Национальный Курс
8:19
Зампред Совбеза России Дмитрий Медведев прокомментировал новую стратегию нацбезопасности США
Американцы продолжают дрессировать обезумевший Евросоюз.
Wsem обо Всём
РНИМУ им. Н. И. Пирогова
06.12.2025
Польза поцелуев для здоровья: стоматолог Пироговского Университета о защите зубов, тренировке иммунитета и фитнесе для лица
Комментирует Моисеев Денис Александрович, к.м.н., доцент кафедры терапевтической стоматоло...
Редакция «Всем!ру»
Редакция Всем!ру
11:03
Встреча Владимира Путина с Виктором Орбаном в Москве
В Кремле прошла встреча Владимира Путина и Премьер-министра Венгрии Виктора Орбана. Какие ...
Wsem обо Всём
Полина Белякова
02.12.2025
Investment Leaders Forum & Award: взгляд на рынок через призму диалога
30 ноября состоялся V Investment Leaders Forum & Award — событие, которое за годы пров...
Евгений Федоров
Евгений Федоров
05.12.2025
Запись разговора Макрона и Мерца, во время которого они обсуждают угрозу для Зеленского, слили США
Об этом заявил депутат Госдумы России, координатор Национально-освободительного движения Е...