Сегодня - 17.11.2019

Вице-президент Microsoft Research Тони Хей высоко оценил систему обработки и визуализации больших объемов данных в СО РАН

09 апреля 2014

В Институте вычислительных технологий СО РАН в рамках научно-практического семинара «Data Science в Сибири» вице-президент Microsoft Research Тони Хей отметил, что система обработки и визуализации больших объемов данных, которая используется в СО РАН, позволяет ученым сотрудничать и делиться результатами исследований. Также он рассказал о технологиях, создаваемых Microsoft, подчеркнув, что в этой сфере планируется сотрудничество с Академией наук.
Тони Хей
«В исследовательском центре Microsoft Research занято 850 исследователей по всему миру со степенью PhD. Это очень маленькое подразделение Microsoft: меньше 1% сотрудников.  Мы используем такие технологии как Kinect , смотрим, как можно применить компьютерные науки, чтобы улучшить здоровье людей, образование и самое важное — окружающую среду», — начал свое выступление Тони Хей.

По его словам, работа команды направлена на то, чтобы облегчить жизнь людям, работающим с большими объемами разнообразной информации, потоковыми данными, базами MS Excel или реляционными базами, так, чтобы они могли быстрее выполнять исследования. До того, как были изобретены компьютеры, было два пути проведения научной работы, но сегодня мы можем рассчитывать научные сценарии с помощью суперкомпьютеров. И встают другие задачи: нужно правильно проанализировать, извлечь, визуализировать и передать большие объемы данных.

— Сейчас есть тенденция развития открытого кода, существует мировое движение за свободный доступ к исследовательским статьям. Это решение принято на правительственном уровне, и многие университеты настаивают, чтобы их преподаватели выкладывали тексты своих работ в такие хранилища. Есть также идея сделать открытыми не только статьи, но и данные, на которых они основываются.  Кроме того, необходимо, чтобы в такие системы можно было добавлять недостающие или свои результаты экспериментов и наблюдений, чтобы продолжать исследования. Мы с Джимом Греем (недавно скончавшийся коллега Тони Хея — прим. ред.) верим, что это может сильно увеличить эффективность науки, — отметил вице-президент Microsoft Research.

Такая система уже есть в Национальной библиотеке медицины США, в Страсбурге и во Франции работает база данных CDS с аналогичными свойствами.

— Давайте посмотрим на инструменты, связанные с научными данными. Необходимо поддерживать информацию в течение всего её жизненного цикла: начиная от получения до визуализации, анализа, извлечения, распространения и архивизации.  Джим Грей предположил, что для каждой из этих стадий нужно создать много экспериментальных инструментов и на практике проверить: какие из них лучше сработают, — рассказывает Тони Хей.  

В качестве примера лектор остановился на системе FetchClimate, которая дает легкий доступ к информации по разным регионам: можно посмотреть температуру, уровень осадков, урожай и прочее.  Помимо ученых, ей могут пользоваться и обычные люди, например, чтобы посмотреть вероятность паводка в какой-либо области.

Отдельное внимание вице-президент Microsoft Research уделил таблицам MS Excel, которые многие ученые используют для расчетов. Из-за постоянного обновления операционных систем и программного обеспечения через 10 лет данные из такой таблицы становится уже невозможно извлечь.

— Мы совместно с Калифорнийской цифровой библиотекой создали приложение, которое позволяет сохранять такие файлы. Это — проект с открытым кодом: вы можете его взять и изменить, как вам нужно, или сотрудничать с нами в этом направлении, — сказал Тони Хей.

В своем выступлении лектор отметил три технологии, которые он считает значимыми для изменения науки в будущем: машинное обучение (обширный подраздел искусственного интеллекта, изучающий методы построения моделей, способных обучаться — прим. ред.), визуализация и облачные сервисы.

— Что касается машинного обучения.  Например, на Pubmed (текстовая англоязычная база данных медицинских и биологических публикаций — прим. ред.) каждую минуту добавляется по 3 статьи. Человеку нужна помощь, чтобы понять, осмыслить и проанализировать всю эту информацию. И здесь нам как раз помогают компьютеры: они хорошо просчитывают и хранят данные. И главное: мы строим системы, способные к обучению, которые улучшаются по мере накопления материала, — считает Тони Хей.

В качестве примера он привел группу в Кембридже, которая занимается вычислительной экологией: они изучают климатические изменения и варьирование количества углерода. Пиковые значения последнего — одна из тем, связанных с неопределенностью при расчете. Если построить график из имеющихся данных, то в перспективе можно увидеть достаточно значительные расхождения: от «всё в порядке» до «большие проблемы». Ученые смотрят на байесовские (метод статистического вывода, основанный на формуле Байеса — прим. ред.) выводы, чтобы понять, какие части ещё не проработаны и каких данных не хватает для целостной модели.  Такой же метод можно применять и в медицинской сфере, например, для изучения повторных попаданий людей в больницы.

Один из удачных инструментов визуализации данных — WorldWide Telescope, который позволяет работать с большим количеством информации, переходить от одного множества к другому, использовать связи и разные базы данных для того, чтобы сделать выборки в исследованиях. Например, если астроном иллюстрирует процесс формирования звезды, то можно показать разные типы излучения, частоты и длины волн.

— Несколько слов об облачных сервисах. Такие компании как Microsoft, Яндекс и Google создают базы с большим количеством множеств данных. «Облако» дает следующие преимущества: у вас есть услуги, которые постоянно существуют —  вы можете загружать данные, создавать команды и так далее. И когда у вас такое расширенное сотрудничество, например, как в Сибирском отделении РАН, вы действительно можете делиться данными, работать в соавторстве.


Заместитель директора по научной работе Института вычислительных технологий СО РАН кандидат технических наук Андрей Евгеньевич Гуськов в своем выступлении «Data Science в Сибири: проекты и задачи» рассказал о том, как решаются проблемы обработки и визуализации больших объемов данных в Сибирском отделении РАН. В частности о том, как удалось решить задачу сбора и анализа информации с установки КЕДР в Институте ядерной физики СО РАН им. Г. И. Будкера, Сибирском суперкомпьютерном центре и применении сходных технологий для очистки спутниковых съемок поверхности Земли от теней и томографии в медицине. 


— У нас есть приложение, которое называется Microsoft Azur Research, где вы можете также участвовать. Сейчас мы обсуждаем с Российской академией наук отдельную программу, которую можно разработать. Есть разные проекты: борьба с пожарами, открытие новых лекарств, суперкомпьютеры.

В заключение своего выступления Тони Хей отметил, что для развития компьютерных технологий нужны навыки трех типов специалистов. Инженеры — помогают на начальном этапе получить данные и предоставить их ученым для исследований, аналитики — осмыслить, проанализировать эти данные, и люди, которые должны подумать об управлении, курировании и сохранении данных.

— Я считаю, что большие объемы данных, машинное обучение и облачные технологии позволят людям принимать умные и взвешенные решения, — резюмировал Тони Хей.

Юлия Позднякова

Фото: 1 — Юлия Позднякова, 2,4 — из презентации Тони Хея, 3 — из презентации Андрея Гуськова

Голосов еще нет
Поделись с друзьями: 
 

comments powered by HyperComments

Система Orphus