Сибирский мегасайнс

В рамках VIII ежегодного комплекса мероприятий в области биофармацевтики и биотехнологии «OpenBio—2021» прошло пленарное заседание «Открытая меганаука: суперкомпьютеры и генераторы больших научных данных — “СКИФ” и “Центр генетических технологий”». На этом заседании ученые и представители биотехнологических компаний обсудили проблемы и перспективы сибирских проектов класса мегасайнс.

Суперкомпьютерный центр «Лаврентьев»

«Установки класса мегасайнс производят гигантский поток экспериментальных данных. Причем с каждым годом это количество существенно увеличивается. Речь идет о сотнях петабайт с каждой из установок. Поэтому разработка и использование современных цифровых сервисов и программного обеспечения для суперкомпьютерного моделирования — это тренды современной науки», — отметил директор Института вычислительной математики и математической геофизики СО РАН доктор физико-математических наук Михаил Александрович Марченко.  

Михаил Марченко Михаил Марченко

Ученый объяснил, для чего суперкомпьютерные вычисления нужны в экспериментах. Во-первых, при помощи усвоения данных и моделирования можно планировать сложные опыты перед тем, как их делать. Во-вторых, интеллектуальная обработка сохраняет big data, полученные в экспериментах. Суперкомпьютерные центры позволяют осуществлять цифровое моделирование, разрабатывать и применять цифровые двойники.

«СКЦ “Лаврентьев” является одним из основополагающих проектов программы “Академгородок 2.0”. Сейчас есть поручение Министерства образования и науки РФ и заместителя председателя правительства РФ Дмитрия Николаевича Чернышенко о создании национальной суперкомпьютерной инфраструктуры. Нам очень важно, чтобы большой суперкомпьютерный центр современного уровня появился здесь, на территории большого Академгородка», — подчеркнул ректор Новосибирского государственного университета академик Михаил Петрович Федорук.

СКЦ «Лаврентьев» планируется построить к 2025 году. НГУ увеличивает подготовку специалистов для этого проекта, а также для ЦКП СКИФ. Однако Михаил Федорук выразил беспокойство насчет состояния российской суперкомпьютерной инфраструктуры: «С 2008 года начинается катастрофическое ее отставание от инфраструктуры Китая, Японии, Европейского союза. Оно пока линейное, но если в этом направлении ничего не предпринимать, то станет экспоненциальным. По данным на ноябрь 2020 года, от США в этом плане мы уже отстаем на 12,5 лет». 

В России есть три суперкомпьютера петафлопсной мощности, но все они в основном расположены в пределах московского Садового кольца. Несмотря на то, что 25 % общего научного потенциала страны сосредоточено в Сибирском регионе, СФО имеет 3 % суперкомпьютерных мощностей.

Михаил Марченко объяснил, почему сибирские институты не могут в полной мере воспользоваться московскими суперкомпьютерными центрами. «Мощность канала для связи с Москвой у нас всего один гигабит в секунду. Это ничтожно мало. В то время как в Европе стогигабитные сети, а в Японии — даже больше. Конечно, проект Национальной исследовательской компьютерной сети России (НИКС) направлен на то, чтобы этот дефицит ликвидировать. Тем не менее, опираться мы здесь можем только на свои мощности — существующие и будущие. Например, мощность имеющегося суперкомпьютерного центра нашего института не так велика, но его услугами пользуются большое количество организаций, выполняющие НИР на крупные суммы», — отметил ученый. 

ЦКП «Сибирский кольцевой источник фотонов»

Особое внимание участники круглого стола уделили перспективам работы на строящемся в настоящее время ЦКП «Сибирский кольцевой источник фотонов», чей центр цифровых сервисов станет образцом для масштабирования на другие проекты мегасайнс.

«Строительство ЦКП СКИФ — это двигатель всей научной деятельности в Академгородке, так как все возникающие проблемы необходимо решать сообща. Установка синхротронного излучения требует многоуровневой системы хранения данных и распределенной вычислительной системы. Кроме того, будущее СКИФ целиком зависит от сообщества специалистов, от поддержки профильных институтов СО РАН и НГУ. Только двигаясь в этом направлении, мы создадим эффективное решение по обработке данных, суперкомпьютерному моделированию и работе с пользователями», — прокомментировал Михаил Марченко.

Планируется, что станции второй очереди будут включать комплекс структурной вирусологии, который конструируется совместно с ЦКП СКИФ и Государственным научным центром вирусологии и биотехнологии «Вектор», а также комплекс исследовательско-образовательных станций, которые развиваются совместно с Новосибирским государственным университетом и Новосибирским государственным техническим университетом.

«В случае работы с большими фирмами, принадлежащими к определенным индустриям, наша конечная цель заключается в минимизации затрат на получение структурой информации, — объяснил ведущий инженер ЦКП СКИФ кандидат химических наук Сергей Григорьевич Архипов. — Основной зависящей от синхротрона категорией затрат в таком случае будет стоимость использованного времени пучка и программного обеспечения. Тогда как для пользователей академической науки конечной целью является получение новых знаний. В сравнении с индустрией, в этой среде больше новичков, которых нужно обучить и создать комьюнити. Кроме того, им необходимы инструменты и планирования, и сопровождения эксперимента, а также возможность личного посещения синхротрона. Соответственно, перед нами встают совершенно новые задачи».

«Источники синхротронного излучения — это мультидисциплинарные фабрики по генерации больших научных данных с колоссальным потенциалом научно-технологического, инновационного и социального развития, — прокомментировал концепцию ИТ-инфраструктуры заместитель директора по научно-методическому сопровождению ЦКП СКИФ доктор физико-математических наук Ян Витаутасович Зубавичус. — Синхротрон должен быть запущен к концу 2023 года, и к тому же времени одна экспериментальная станция — введена в эксплуатацию, еще шесть станций — построены к концу 2024 года». 

Центр генетических технологий 

Для проекта Центра генетических технологий тоже остро стоит вопрос об информационных ресурсах, которые позволяли бы собирать, накапливать и анализировать огромное количество генетических данных.

«Сейчас в США, Западной Европе, Китае реализуются проекты, название которых уже говорит о масштабах: “1+ Миллион геномов”, “100 тысяч геномов”. В рамках этих проектов, помимо масштабов генетической информации, будут получены и другие характеристики живой материи. Всё это предстоит анализировать в едином комплексе, чтобы получить принципиально новую информацию, важную для здравоохранения, создания новых лекарственных препаратов. Это гигантский вызов, и мы должны четко понимать, как готовиться к нему», — отметил директор ФИЦ фундаментальной и трансляционной медицины, заместитель председателя СО РАН академик Михаил Иванович Воевода.

По словам научного руководителя ФИЦ «Институт цитологии и генетики СО РАН» академика Николая Александровича Колчанова, с 2001 года стоимость секвенирования генома человека упала на пять порядков: с десяти миллионов до примерно одной тысячи долларов за геном. Это привело к тому, что данные накапливаются исключительно быстро. Так, Массачусетский технологический институт и Гарвардский университет продуцируют до семи петабайт геномной информации в год. Причем речь идет не просто о расшифровке нуклеотидных последовательностей, но и обо всех действиях, начиная от описания биоматериала. Всё это фиксируется в гигантских базах данных.

Николай Колчанов Николай Колчанов

«Только порядка 10 % секвенированных геномов обрабатываются на достаточно глубоком уровне. Остальная информация — это первичное секвенирование. Проблема в том, что сложность геномов исключительно велика. Анализируя их, необходимо расшифровывать не только локализацию генов, но и функции РНК, пространственной структуры белков и так далее. Это вызов для мировой информатики. Наша ситуация хуже, потому что мощных вычислительных средств у нас нет, — сказал Николай Колчанов. — Однако решения есть, и они непосредственно связаны со СКИФом. Так, например, нейронная сеть AlphaFold применима для предсказания пространственной структуры белков по аминокислотным последовательностям с точностью, близкой к экспериментальной. Также в нашем институте была разработана база данных PDBSite, которая содержит информацию о пространственных структурах более чем в 100 000 активных центров белков. Именно на синхротроне может быть осуществлен этот цикл работ с применением методов компьютерной протеомики для оценки влияния мутаций на структуру и функцию белков». 

Ученый выделил три задачи геномики, имеющие важнейшее практическое значение. Первая — это полногеномный ассоциативный анализ, призванный найти варианты изменчивости генов, которые достоверно ассоциированы с теми или иными заболеваниями. Вторая задача — геномная селекция, позволяющая отбирать для размножения лучших представителей того или иного сорта сельскохозяйственных растений. Наконец, необходимо выявлять дифференциально экспрессирующиеся гены, отвечающие на воздействие факторов внешней среды. 

«Без суперкомпьютера решить эти задачи будет невозможно. Также нам важно создавать сообщество организаций, работающих в биоинформатике, куда бы вошли как академические институты, так и коммерческие компании. Кроме того, необходимо увеличивать количество специалистов в области биоинформатики. И, конечно, нужно создать свой центр генетической информации, аналогичный NCBI (Национальный центр биотехнологической информации США)», — сказал Николай Колчанов.

Сегодня на базе Курчатовского геномного центра ИЦиГ СО РАН проводятся фундаментальные геномные исследования и разработки прорывных генетических технологий. Один из секторов комплексного проекта направлен на решение задач генетики и селекции сельскохозяйственных растений с помощью методов биоинформатики. 

«По масштабам требуемых ресурсов задачи биоинформатики весьма разнообразны. Для обработки множества различных данных невозможно создать одну унифицированную кластерную систему, — сказал заведующий лабораторией эволюционной биоинформатики и теоретической генетики ФИЦ ИЦиГ СО РАН доктор биологических наук Дмитрий Аркадьевич Афонников. — Например, сборка геномов сельскохозяйственных растений — картофеля, ячменя, пшеницы — требует большего объема памяти, количества ядер и дискового пространства, чем для реконструкции генома человека. Для эффективного решения подобных задач был создан вычислительный кластер ЦКБ “Биоинформатика”. Его структура позволяет давать гибкий доступ к данным, как с лабораторного оборудования, так и через веб-сервисы. Сегодня на кластере выполняют вычисления сотрудники девяти научно-исследовательских организаций».

Диана Хомякова, Глеб Сегеда

Фото с сайта OpenBio