• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

«Биотех бурлит во всем мире, его кривая роста опережает развитие компьютерных технологий»

«Биотех бурлит во всем мире, его кривая роста опережает развитие компьютерных технологий»

© iStock

Более пяти лет в НИУ ВШЭ действует Международная лаборатория биоинформатики факультета компьютерных наук. За это время ее ученые добились значительных научных результатов. Здесь разработан уникальный в мировой практике тест «Кардиожизнь», позволяющий прогнозировать вероятность проявления сердечно-сосудистых заболеваний. С привлечением студентов и аспирантов Вышки ведутся исследования для создания лекарств нового поколения. Заведующая лабораторией Мария Попцова рассказала о ее работе в интервью новостной службе «Вышка.Главное».

— Когда была создана лаборатория?

— Сначала была организована научно-учебная группа в 2018 году. Примерно через полгода она была преобразована в научно-учебную лабораторию. А уже в период пандемии мы стали международной лабораторией. Тогда можно было пригласить в лабораторию иностранного ученого без его обязательного присутствия в России.

Мария Попцова
© Высшая школа экономики

В то время мы активно разрабатывали модели глубокого обучения для анализа геномных данных, и нам было важно взаимодействовать с зарубежными коллегами, обмениваться идеями и данными. Наличие статуса международной лаборатории позволило наладить сотрудничество с экспериментальной лабораторией Онкологического центра Фокс-Чейза Университета Пенсильвании, и наш совместный проект завершился публикацией статьи в ведущем мировом журнале Nature. Коллеги направляли нам экспериментальные данные, мы их обрабатывали и как биоинформатики, и как дата-сайентисты: строили модели глубокого обучения для прогнозирования крайне важного элемента в геноме — Z-ДНК, вторичной структуры ДНК, закрученной не вправо, а влево. Построенная нами модель была использована при исследовании механизма действия лекарства от рака.

— Почему вы решили выбрать научным руководителем профессора Алана Герберта? Какова его роль в работе лаборатории?

— С профессором Аланом Гербертом мы познакомились, когда подали статью в один из международных журналов, где мы предлагали нашу первую модель глубокого обучения для прогнозирования Z-ДНК. В рецензии было указано, что мы не учли несколько работ по нашей тематике. Когда стали разбирать замечания, выяснилось, что автором всех упомянутых статей был Алан Герберт, известный ученый в области вторичных структур ДНК, ключевой специалист по тематике наших исследований. Мы списались по электронной почте, затем поговорили по Zoom. Как раз летом 2020-го мы проводили летнюю школу по машинному обучению в биоинформатике, которую из-за пандемии коронавируса пришлось перенести в онлайн, и благодаря этому нам удалось собрать ученых из разных стран: США, Китая, европейских государств. Профессор Герберт увидел уровень наших докладов и согласился стать научным консультантом.

С тех пор мы активно работаем с ним онлайн. Вместе мы организовали ставшую ежегодной международную конференцию ABZ по Z-ДНК, которая все эти годы проводилась онлайн, но есть планы провести ее в будущем году очно в Оксфорде.

Алан Герберт продолжает выстраивать научное сотрудничество с учеными из других стран, хотя сейчас это нелегко. Помимо работы в университетах, он возглавляет небольшой стартап, и это тоже помогает в выстраивании международных связей.

Школа ФКН по машинному обучению в биоинформатике
© Высшая школа экономики

— Как объяснить непосвященным, что такое биоинформатика, какие научные дисциплины она соединяет?

— Изначально биоинформатика возникла как компьютерные методы обработки данных молекулярной биологии. Обычно это информация об объектах, которые находятся внутри клетки: ДНК, РНК, белки и другие макромолекулы. Практически одновременно с появлением компьютеров начались эксперименты по расшифровке состава этих макромолекул. Например, последовательность ДНК можно написать текстом на алфавите из четырех букв, а белка — на алфавите из 20 букв, и есть правило перевода одного алфавита в другой — так называемый генетический код. В конце 1960-х годов его расшифровали. Одновременно технологически научились получать последовательности ДНК и белков из разных организмов. Тогда же возникла необходимость разрабатывать алгоритмы для оценки схожести и различия последовательностей, чтобы рассчитать вероятность процессов, объясняющих, как одна строка ДНК трансформировалась в другую. Так и появилась биоинформатика. А дальше ее методы и алгоритмы развивались и усложнялись параллельно с появлением новых биотехнологий.

— В чем это выражается?

— Появилась, например, технология полногеномного секвенирования. Как следствие, возникла необходимость обрабатывать полногеномные данные и извлекать из них информацию. Например, сравнивать последовательности разных геномов или определять изменения в геноме конкретного человека — замену одной буквы, вставку или удаление маленьких и больших подстрок.

Далее появилась новая линейка экспериментальных технологий, благодаря которым можно прочитать не только последовательность ДНК, но и сигналы с других уровней кодирования информации — так называемый эпигенетический код.

Мы открывали лабораторию под изучение вторичных структур ДНК, тоже закодированных в геноме, с дальнейшей целью понять, по каким алгоритмам и правилам работает геном. Для решения данной задачи необходимо сопоставлять все уровни кодирования генетической информации. Поскольку в геноме человека насчитывается 3 млрд символов и уже сейчас доступны сотни тысяч полногеномных экспериментов по определению сигналов эпигенетического кода, возникла необходимость применения алгоритмов глубокого обучения для понимания связей между разными кодировками. В сферах, не связанных с биологией, алгоритмы глубокого обучения эволюционируют очень быстро, поэтому необходимо так же быстро адаптировать их применение к нашим биологическим задачам.

— Каковы ключевые направления исследований вашей лаборатории?

— Мы разрабатываем методы и архитектуры алгоритмов глубокого обучения для своих задач. В последние пару лет уже в геномике специально для биологии стали появляться большие языковые модели и фундаментальные модели, построенные на алгоритмах, на которых работают ChatGPT, DeepSeek и другие сложные системы ИИ.

Большие языковые модели в геномике, так же как и в языках, очень большие (Evo2, к примеру, содержит 40 млрд параметров), и, чтобы их запустить, нужен суперкомпьютер

Одна из наших задач состоит в тестировании таких гигантских моделей на геномах кардиопациентов и их внедрении в генетические тесты. Мы также занимаемся разработкой собственных моделей глубокого обучения для анализа кода вторичных структур ДНК и эпигенетики.

Среди других направлений в лаборатории развиваются исследования микроокружения опухоли на данных одноклеточного секвенирования, что позволяет понять, какие гены или программы включены, а какие выключены в отдельной клетке.

Например, если мы берем образец опухоли, то в нем есть клетки нормальной ткани, опухолевой ткани и клетки иммунной системы: лимфоциты, макрофаги, нейтрофилы и другие. Основной вопрос, на который мы хотим получит ответ, — почему и как опухоль избегает иммунного ответа. В нормальном организме клетки иммунной системы должны распознавать чужеродные опухолевые клетки и ликвидировать их, но опухолевые клетки как-то перепрограммируют клетки иммунной системы так, что они перестают распознавать и уничтожать раковые клетки. Такое поведение обусловлено действием генетических программ, подавляющих или, наоборот, активирующих иммунный ответ. Мы пытаемся такие программы выявить и изучить. Данное направление развивается пока на открытых данных, но мы планируем налаживать сотрудничество с российскими экспериментальными лабораториями.

Параллельно мы ведем исследования роли некодирующих вариантов, находящихся не в генах, кодирующих белки, а в межгенном пространстве, которое занимает 98% размера генома. Эффект таких некодирующих вариантов малоизучен. Мы разрабатываем методы глубокого обучения и используем большие языковые модели, чтобы определить эффект некодирующих вариантов, способных влиять на производство белка или, наоборот, прекращать его выработку клеткой, что может быть связано с возникновением и течением болезни.

— В каких областях медицины и биологии наиболее востребованы результаты работы лаборатории? Где они позволяют добиться серьезного прогресса в профилактике и лечении болезней?

— Одно из таких направлений — тестирование в области кардиогенетики, отстающей по сравнению с онкогенетикой. Мы развиваем данное направление около пяти лет. Нами был организован кардиогенетический консорциум, куда вошли врачи, биоинформатики и генетические лаборатории, способные секвенировать, то есть прочитывать, индивидуальный геном. В рамках проекта «100 000 российских геномов» мы работаем с кардиоцентром имени Чазова и 29-й горбольницей имени Баумана. Сейчас у нас отсеквенировано около 1000 полных геномов, которые мы исследуем на наличие вариантов, ассоциированных с кардиозаболеваниями.

На сегодняшний день известно более 900 генов, участвующих в развитии сердечно-сосудистых заболеваний. Весь наш накопленный опыт позволил нам создать генетический тест, названный «Кардиожизнь», который уже доступен на коммерческой основе. С его помощью пациент может получить информацию о наличии патогенных вариантов, ассоциированных с сердечно-сосудистыми заболеваниями.

— Каковы перспективные направления ваших исследований?

— Наша лаборатория готова расширить масштаб работ, перейдя в онкогенетику, поскольку методы генетического тестирования одинаковы для разных заболеваний. Кроме того, у нас есть опыт анализа большого массива геномных данных с помощью алгоритмов ИИ. Стоит задача найти небольшое количество маркеров, имеющих хорошую прогностическую силу. Чем меньше маркеров, способных прогнозировать заболевание, тем проще осуществлять масштабирование тестирования. Ожидается, что проводить раннюю диагностику рака возможно 8–10 маркерами. Это наша задача на ближайшее будущее.

© Высшая школа экономики

— В чем ключевые особенности разработанного лабораторией теста «Кардиожизнь»?

— Это уникальный, не имеющий аналогов в мире тест, созданием которого мы гордимся. Из числа имеющихся сегодня тестов он наиболее полно учитывает набор генов и регуляторные области. Есть стандартные программы, которые применяются для генетического тестирования в генетических компаниях. Мы же проводим исследование на порядок глубже. У одного гена может быть много разных вариантов, и мы перебираем все изоформы, поскольку даже одна и та же мутация может по-разному влиять на изоформы. В дополнение мы анализируем некодирующие варианты и определяем их влияние на экспрессию генов с применением методов ИИ. В этом уникальность теста «Кардиожизнь». При стандартном генетическом тестировании такие исследования не проводятся.

— Расскажите о ключевых направлениях работы зеркальной лаборатории с Сургутским университетом.

— Анализ и создание прогностических систем на основе методов ИИ в медицине. Данный проект вырос из кардиогенетического консорциума, когда мы узнали, что в Ханты-Мансийском автономном округе — Югре электронные медицинские карты хранятся с 2009 года. Мы стали анализировать медицинские карты пациентов, попавших в сургутский окружной кардиоцентр с диагнозом «инфаркт миокарда».

Пациентам оказывали помощь, выписывали из больницы и отслеживали дальнейшее течение событий, поскольку у многих из них был высокий риск неблагоприятных событий: повторного инфаркта, инсульта, кровотечения и смерти. Мы построили прогностическую систему оценки риска наступления такого события, обучаясь на данных 10 000 пациентов за период с 2009 года. Есть идея дообучать эту модель на данных других кардиологических центров. Мы также научились обрабатывать медицинские данные для подачи алгоритмам машинного обучения — как классическим, так и тем, на основе которых сделан ChatGPT. Этот проект хорошо масштабируется и переносится в другие регионы. Также врачи могут поставить новые задачи. Например, можно создать модель для прогноза возникновения побочных эффектов от назначения тех или иных лекарств.

В частности, в сотрудничестве с Российской медицинской академией непрерывного профессионального образования мы начали строить первые модели по предсказанию неблагоприятных событий при приеме антикоагулянтов и антидепрессантов. Это очень важно, поскольку у них много побочных эффектов, особенно у подростков.

— Используется ли ИИ в разработке лекарств?

— Еще одно направление, которым мы недавно начали заниматься, — применение методов ИИ для генерации лекарств белковой природы. Напомню, что в 2024 году Нобелевской премии по химии «за вычислительный дизайн белков и предсказание их структуры» удостоились директор Института белкового дизайна Университета Вашингтона в Сиэтле Дэвид Бейкер и сотрудники Google DeepMind Демис Хассабис и Джон Джампер. В последние годы произошел прорыв в разработке лекарств благодаря применению генеративных моделей для создания пептидов из 15–20 аминокислот, которые могут связываться с заданным участком белка. Белковые байндеры представляют собой новое поколение лекарств, которое, в отличие от нынешних, базирующихся на химических молекулах, будет иметь биологическую природу. Вместо громоздких химических антител можно будет применить байндеры для связывания с вредоносными белками. Разработанные Бейкером и его институтом модели находятся в открытом доступе. И теперь уже студенты защищают дипломы и курсовые по использованию этих моделей для открытия белок-белковых взаимодействий. Создано немало компаний, занимающихся разработкой такого рода лекарств белковой органической природы. За этим будущее. Мы тоже работаем в этой сфере, есть уже первые результаты.

Биотех бурлит во всем мире, его кривая роста опережает развитие компьютерных технологий.

Известный футуролог, топ-менеджер Google Рэй Курцвейл, прогнозирующий научно-технический прогресс и его ключевые прорывы, предсказавший появление беспилотных автомобилей и ИИ, полагает, что к середине 2030-х годов ожидается сингулярность, когда человек сольется с ИИ и возникнет новый гибридный способ сосуществования. Будут изучены важнейшие области человеческого мозга и расшифрованы алгоритмы работы клетки. Совмещение этих знаний позволит программировать клетки ткани и выращивать органы. Такая фантастика ждет нас благодаря сочетанию биотехнологий и искусственного интеллекта.

— Какие результаты фундаментальных и прикладных работ вы бы назвали ключевыми достижениями лаборатории?

— Создание «Кардиожизни», публикацию в Naturе, открытие потенциального лекарства от рака посредством включения генетической программы через вторичную структуру ДНК, создание моделей глубокого обучения для полногеномной аннотации вторичной структуры ДНК — это, кроме нас, не делал никто в мире.

— Как используются результаты научных работ лаборатории в учебном процессе университета?

— Я всегда даю студентам темы курсовых и дипломов по актуальным научным задачам. Если они их успешно решают, то становятся авторами научной публикации. На лекциях я всегда освещаю работу лаборатории, а на междисциплинарном майноре «Биоинформатика» рассказываю, как студенты могут погрузиться в науку через курсовые и дипломы. С сентября буду вести спецкурс, где мы со студентами будем подробно разбирать научные методы и прорывные идеи последних двух-трех лет.

— Насколько активно в деятельности лаборатории участвуют студенты и аспиранты Вышки?

— Весьма активно. У нас работают более 20 стажеров-исследователей: студенты старших курсов бакалавриата, магистранты и аспиранты.

Вам также может быть интересно:

Стартует новый норматив технологической грамотности ТехноГТО «Искусственный интеллект»

Открыт новый норматив технологической грамотности ТехноГТО по направлению «Искусственный интеллект», разработанный совместно с Академией искусственного интеллекта для школьников Благотворительного фонда Сбербанка «Вклад в будущее». Проект ТехноГТО является частью Национальной технологической олимпиады (НТО) и реализуется Кружковым движением НТИ совместно с президентской платформой «Россия — страна возможностей» и Движением Первых при поддержке НИУ ВШЭ и Росмолодежи.

НИУ ВШЭ начал разработку отечественных технологий связи 6G на базе субтерагерцовой микрорадиоэлектроники

В Высшей школе экономики стартовали масштабные научно-инженерные работы по созданию отечественных технологий для перспективных систем связи шестого поколения (6G). Работы ведутся командой стратегического технологического проекта «Комплекс технологий доверенных систем связи 6G», реализуемого в рамках программы «Приоритет-2030».

Как продлить человеческую жизнь и активное долголетие

Исследования молекулярных механизмов долголетия дают возможность изучить вероятность существенного увеличения продолжительности жизни, в том числе активного долголетия, когда пожилые люди сохраняют трудоспособность и социальные связи. О деятельности Лаборатории исследований молекулярных механизмов долголетия «Вышка.Главное» побеседовала с ее руководителем Максимом Шкурниковым.

Пространство экономических экспериментов: как прошел воркшоп для молодых исследователей

В начале сентября обновленная Лаборатория поведенческой экономики и финансов (ЛПЭФ) провела первый воркшоп для молодых исследователей. Главной особенностью стала опора каждого доклада на результаты лабораторных экономических экспериментов. В частности, ученые рассказали о том, что люди считают справедливой сделкой, как лучше мотивировать сотрудников и как гены влияют на желание сотрудничать и помогать другим. Все заинтересованные студенты и аспиранты были приглашены к сотрудничеству с лабораторией.

Вышка исследует потребности глухих

В последнее воскресенье сентября в мире традиционно отмечается День глухих. В этом году факультет социальных наук (ФСН) Высшей школы экономики присоединился к празднику и совместно с Московской городской организацией Всероссийского общества глухих (МГО ВОГ) запустил исследование потребностей глухих и слабослышащих москвичей в социальных услугах и доступности среды.

НИУ ВШЭ и компании-партнеры скоординировали подходы к подготовке специалистов топ-уровня в сфере ИИ

В НИУ ВШЭ прошла встреча с представителями Сбера, Яндекса и VK для согласования подходов к подготовке специалистов топ-уровня в сфере искусственного интеллекта. В частности, договорились о регулярном обновлении образовательных программ с учетом новейших решений и разработок компаний-партнеров. Участники встречи обсудили текущий статус проекта, содержание образовательных программ и механизмы взаимодействия для обеспечения достижения показателей эффективности созданного в университете Центра организации обучения студентов для топ-специалистов в сфере искусственного интеллекта НИУ ВШЭ.

«Мы ищем там, где много неизвестного»

Вычислительные методы анализа древних и современных геномов позволяют исследовать процесс формирования генетического разнообразия популяций, изучать историю их перемешиваний и миграций, прослеживать формирование адаптации к окружающей среде. Международная лаборатория вычислительной и статистической геномики НИУ ВШЭ использует математические подходы и генетические данные для решения широкого спектра задач в различных областях — от антропологии и эпидемиологии до криминалистики. Новостная служба «Вышка.Главное» побеседовала с заведующим лабораторией Владимиром Щуром о ее работе.

В Высшей школе экономики открылась межфакультетская Музейная лаборатория

Вышка запустила межфакультетскую Музейную лабораторию, которая станет устойчивым центром экспертной поддержки в сфере музейного дела. Ее миссия связана с изменением современных моделей восприятия культуры и трансформацией институциональной среды. Лаборатория специализируется на модернизации музейных практик и повышении престижа музеев, формируя пространство для профессионального диалога и внедрения инноваций.

Физики предложили новый механизм усиления сверхпроводимости с помощью «квантового клея»

Команда исследователей с участием сотрудников МИЭМ ВШЭ показала, что дефекты в материале могут не снижать, а, наоборот, усиливать сверхпроводимость. Это возможно благодаря взаимодействию дефектных и более чистых областей, которое образует «квантовый клей» — однородную компоненту, связывающую разрозненные сверхпроводящие участки в единую сеть. Расчеты подтвердили, что такой механизм может помочь в создании сверхпроводников, работающих при более высоких температурах. Исследование опубликовано в журнале Communications Physics.

30 студентов из 19 университетов приняли участие в исследовательской экспедиции НИУ ВШЭ в «Новом Херсонесе»

В рамках программы студенческих экспедиций «Открываем Россию заново» при поддержке программы Росмолодежи «Больше, чем путешествие», президентской платформы «Россия — страна возможностей», а также Симферопольской и Крымской епархии НИУ ВШЭ на базе Школы молодого гуманитария провела исследовательскую экспедицию на территории музейно-храмового комплекса «Новый Херсонес» в Севастополе. По ее итогам будут разработаны предложения по организации просветительских проектов в области формирования исторической памяти молодежи о роли Херсонеса, Крыма и византийского наследия в истории российской культуры и государственности.