Каковы перспективы создания суперкомпьютеров на отечественном железе, архитектуре и программном обеспечении? Какой должна быть стратегия развития суперкомпьютерной инфраструктуры в России? Ответы на эти и другие вопросы искали участники очередного заседания Клуба межнаучных контактов СО РАН.
«Это не уставной, но очень важный орган, который формирует коллективную точку зрения специалистов разных направлений», — охарактеризовал площадку председатель СО РАН академик Валентин Николаевич Пармон. Он же задал рамку обсуждений: не затрагивать административно-организационных вопросов, прежде чем будет достигнут некоторый профессиональный консенсус.
Дискуссия не привела к резолютивному итогу, но обозначила несколько трендов. Прежде всего, мировых. Налицо глобальное нарастание потоков научной информации, обработка которых сама становится отдельным направлением науки, по технической и ресурсной вооруженности сравнимое с ядерной физикой и генетикой. Директор Института гидродинамики им. М. А. Лаврентьева СО РАН доктор физико-математических наук Евгений Валерьевич Ерманюк рассказал, что в США только на суперкомпьютерное моделирование глобальных процессов в океане и атмосфере ежегодно тратится свыше пяти миллиардов долларов. Основным вычислительным центром американской программы являются несколько суперкомпьютеров Окриджской национальной лаборатории, один из которых был до 2020 года первым в мире (сейчас он на втором месте). «По доступным в интернете сведениям, обновление оборудования суперкомпьютерного центра Окриджа в части, относящейся к вычислениям по глобальным моделям атмосферы и океана, осуществляется в среднем каждые 18 месяцев», — сообщил Евгений Ерманюк.
Об информационной революции, происходящей в биологии, рассказал научный руководитель ФИЦ «Институт цитологии и генетики СО РАН» академик Николай Александрович Колчанов. Становление геномики и биоинформатики кардинально изменило биологический ландшафт, сделало изучение первооснов жизни точной вычислительной наукой, оперирующей огромными массивами данных. «В последнее десятилетие произошло выраженное более чем на четыре порядка снижение стоимости секвенирования геномной ДНК, для генома человека — от десяти миллионов до тысячи долларов. В результате этого в генетике произошел информационный взрыв, и она стала главным источником больших данных во всех науках и технологиях, перегнав по темпам роста даже социальные сети», — констатировал академик. Он привел прогноз на 2025 год, согласно которому суммарный объем производимой научной информации составит свыше 60 петабайт в год, из которых до 40 будет приходиться на геномику.
Не ограничиваясь геномикой, наука о генах изменила свой основной объект, которым становятся теперь генные сети — группы координированно функционирующих генов, взаимодействующих друг с другом через РНК, белки, метаболиты и так далее, обеспечивающие на основе информации, закодированной в геномах, формирование всех фенотипических характеристик организмов (молекулярных, биохимических, клеточных, физиологических, морфологических, поведенческих и тому подобное). «На сегодня в мировых базах содержится описание более 70 000 генных сетей и их компонентов: сетей белок-белковых взаимодействий, путей передачи сигналов, метаболических путей, сетей взаимодействия между генами и белками и так далее», — информировал Н. А. Колчанов.
А еще есть компьютерная протеомика и фармакология, биоинформатика и биомедицина, есть моделирование множества биологических процессов, цифровой дизайн штаммов — суперпродуцентов важнейших биологических продуктов, есть применение высокопроизводительных вычислений в интересах современного сельского хозяйства. Наконец, есть задачи освоения огромных массивов уже накопленных научных сведений, для чего в ФИЦ ИЦиГ СО РАН разработана ANDSystem — компьютерная система для автоматического извлечения генетических знаний и фактов из баз данных и текстов публикаций на основе методов машинного обучения. И есть возможность на этой же основе мониторить и прогнозировать социальную активность различной направленности, например борьбу в информационном пространстве за приверженность определенным позициям и оценкам. «То, как, по ленинским словам, идея овладевает массами, сегодня стало моделируемым и предсказуемым процессом», — заметил Николай Колчанов. В итоге Центр генетических технологий — один из флагманских проектов программы развития Новосибирского научного центра («Академгородок 2.0»), равно как и другие инициативы биологического профиля, заинтересован в вычислительных мощностях, многократно превосходящих сегодняшние.
Николай Колчанов
Заместитель директора Института ядерной физики им. Г. И. Будкера СО РАН доктор физико-математических наук Иван Борисович Логашенко обозначил потребности в супервычислениях для физики высоких энергий. «Это направление в любых условиях остается международным, поскольку просто не может быть иным, — подчеркнул ученый. — Правда, во многих мировых коллаборациях, начиная с Большого адронного коллайдера, мы участвуем интеллектуально и технически, но не в супервычислениях, не в обработке и моделировании данных. Для этого нам, в отличие от коллег из Центральной России, просто не хватает мощностей». В рамках программы «Академгородок 2.0» ИЯФ СО РАН реализует проект супер С-тау фабрики, экспериментальная установка которой будет строиться в Российском федеральном ядерном центре (РФЯЦ — ВНИИЭФ) в Сарове (Нижегородская область). «Полный объем данных, который ожидается, должен составить 200—300 петабайт за первые десять лет эксплуатации, — прогнозирует И. Логашенко. — Несколько лет назад мы предполагали, что для работы с этими объемами потребуется мощность около 600 терафлопс, но теперь видим, что эту цифру нужно увеличивать до 1—3 петафлопс». «Установка должна быть запущена в Сарове, — подчеркнул заместитель директора ИЯФ, — но мозговой центр остается здесь, поэтому задачи моделирования экспериментов будут решаться в Новосибирске и потребуют соответствующих вычислительных ресурсов».
О том, какой суперкомпьютер требуется для синхротрона СКИФ, рассказал руководитель отдела ИТ и компьютерных сетей дирекции проекта Владимир Сергеевич Потеряев. Установку класса мегасайнс он назвал «клиентским конвейером, открытым всем институтам СО РАН, России и мира», на котором будут использоваться десятки различных методик. «Поскольку любое исследование уникально, в ходе каждого из них нужно будет подстраивать оборудование и проводить предварительное моделирование эксперимента, чтобы при необходимости скорректировать его параметры до натурного этапа», — пояснил В. Потеряев. Для каждой рабочей станции (первая очередь проекта предполагает 6 + 1, вторая — 30) планируется создание цифровых двойников, прежде всего для обучения, как пользователей, так и собственного инженерно-технического персонала установки.
По мнению Владимира Потеряева, спецификой собственного суперкомпьютера СКИФ должна стать онлайновость обработки данных. «Ученые-клиенты, издалека приехавшие на рабочие станции СКИФ, будут заинтересованы в получении результатов в режиме здесь и сейчас, поэтому нужно будет создавать высокопроизводительную цепочку данных от детекторов через обработку к хранению», — подчеркнул специалист. «Поток в четыре-пять сотен гигабит мы далеко не утащим», — так В. С. Потеряев определил основную причину локализации суперкомпьютерных мощностей вблизи рабочих станций СКИФ. Архитектура этого центра во многом воспроизведет действующий в Объединенном институте ядерных исследований (Дубна) суперкомпьютер «Говорун» (названный в честь академика Н. Н. Говоруна. — Прим. ред.). При этом супервычисления на СКИФе, по словам Владимира Потеряева, могут «опираться на плечо СКЦ “Лаврентьев”».
Эти и другие потребности в супервычислениях выглядят особо актуальными в глобальном контексте, который обрисовал директор Института вычислительной математики и математической геофизики СО РАН доктор физико-математических наук Михаил Александрович Марченко. На сегодня в мировом Тор-500 Россия занимает десятое место и представлена семью суперкомпьютерами. Это всего лишь 2,4 % от суммарного их числа, тогда как доли лидеров — США, Японии и Китая — составляют 32,5, 20,7 и 17,5 % соответственно. Экспоненциально растут создаваемые мощности: Соединенные Штаты уже сегодня открыли экзафлопсную гонку — начали строить три машины: Frontier, Aurora и El Capitan. Каждая из них стоит 500—600 миллионов долларов, имеет производительность от 1 до 2 экзафлопс и потребляет от 30 до 60 мегаватт энергии (для сравнения: ОбьГЭС выдает на пике менее 400). Схожую программу анонсирует Китай.
Суперкомпьютеры становятся обязательным атрибутом любой современной научной системы и национальным стратегическим потенциалом. В России все гражданские вычислительные супермашины из мирового Тор-500 принадлежат федеральным субъектам: Яндексу, Сбербанку, МТС и Московскому государственному университету им. М. В. Ломоносова. Они расположены в центральной части страны и в первую очередь обслуживают своих держателей. Элементную базу для суперкомпьютеров России приходится закупать (или заказывать, что одно и то же) за рубежом. На актуальные темы эмбарго и импортозамещения высказался заведующий лабораторией суперкомпьютерного моделирования ИВМиМГ СО РАН доктор физико-математических наук Игорь Геннадьевич Черных. Он пояснил, что в границах РФ сегодня нет ни одной производственной площадки, способной производить элементную базу размерностью порядка 5 нанометров — только 28—30 и выше. И главное — нет возможности быстро обзавестись такими фабриками. «Китай может поставить в Россию современные малоразмерные чипы и процессоры, но не установки для их выпуска, поскольку это абсолютно не выгодно», — считает специалист. Он оценивает минимум в 20 лет отставание отечественных технологий производства микро- и наноэлектронной элементной базы.
Но, с его же слов, санкции США и стран ЕС не означают стопроцентной недоступности их продукции. Антироссийские запреты адресны и частичны, они касаются определенных позиций и их получателей. «Формально на сегодня существует возможность пройти экспортный контроль для приобретения серверных процессоров Intel AMD и карт Nvidia», — полагает специалист. «Если мы захотим купить их в эти дни, то американцы, скорее всего, откажут. Но в будущем есть вероятность возобновления поставок», — считает Игорь Черных. Доктор физико-математических наук Валерий Павлович Ильин (ИВМиМГ СО РАН) добавил, что в отличие от элементной базы программное обеспечение всего контура супервычислений в настоящее время может быть создано в России. «А это составляет минимум 50 % всей проблемы», — подчеркнул ученый.
При этом в суперкомпьютерных мощностях и программном обеспечении остро нуждается именно отечественная наука: только в фундаментальном секторе М. А. Марченко перечислил 16 ключевых задач, от определений очагов цунами до задач дискретной математики, в прикладных областях их на порядок больше. Ученый предполагает, что исследовательские суперкомпьютерные мощности России к 2030 году должны составлять не менее 6,5 экзафлопс, включая СКЦ «Лаврентьев» мощностью 10—15 петафлопс. Его структуру Михаил Марченко предварительно описал как 70 % центральных процессоров (CPU) для решения задач математического моделирования и 30 % графических (GPU) — для обработки данных и глубинного обучения.
«Если такой центр будет создаваться, он станет самым крупным в Азиатской России, — уверен академик В. Пармон. — Это огромный инфраструктурный объект, бывший тяжелоподъемным по финансам еще до начала известных событий, хотя тогда у федерального центра были намерения вливать средства в этот проект. Что бы ни происходило сегодня, задача междисциплинарного сообщества специалистов состоит в том, чтобы согласовать позиции для формирования основных требований к техзаданию». Помимо публичных обсуждений, кстати, такая подготовка ведется в двух рабочих группах при СО РАН. А председатель Клуба межнаучных контактов член-корреспондент РАН Сергей Игоревич Кабанихин и модератор встречи доктор физико-математических наук Сергей Робертович Сверчков анонсировали еще одно как минимум обсуждение этой же темы, с привлечением геологов, геофизиков, археологов, представителей других дисциплин, нуждающихся в супервычислениях.
Андрей Соболевский
Фото автора, схема из презентации Николая Колчанова