В Институте монголоведения, буддологии и тибетологии СО РАН (Улан-Удэ) запущен проект по дешифровке тибетских рукописей XVIII—XIX веков. Обработку внушительного массива данных осуществляет искусственный интеллект компании «Мобильные ТелеСистемы», а его обучением занимаются сотрудники Высшего колледжа информатики Новосибирского государственного университета.
В Центре восточных рукописей и ксилографов ИМБТ СО РАН хранится одно из крупнейших собраний восточных книг на тибетском и монгольском языках. Коллекция включает около ста тысяч экземпляров, но точное количество книг неизвестно, так как обработка всего фонда осуществляется до сих пор. Внушительный архив рукописей начал формироваться ровно сто лет назад, сразу после образования Бурятского ученого комитета в 1922 году.
Одна из рукописей Центра восточных рукописей и ксилографов ИМБТ СО РАН
Основателями Буручкома были такие выдающиеся ученые и общественные деятели, как Базар Барадиевич Барадийн и Гомбожаб Цэбекович Цыбиков, автор важных работ по истории, этнографии и культуре Тибета, а также первых сделанных там фотографий. У каждого из этих исследователей были богатые библиотеки, из которых и начал формироваться фонд. Позже книги, многие из которых были изданы в Тибете, Монголии и Китае, поступали из частных и монастырских книгохранилищ. Преимущественно это была религиозная литература, связанная с буддийскими учениями, которая включала информацию из самых разных областей знаний: медицины, инженерии, истории, искусства.
Значительную часть своего собрания ЦВРК обрел после массового разгрома буддийских монастырей на территории Бурят-Монгольской Республики в 1920—1930-х годах. В 1929 году политбюро ЦК ВКП (б) приняло резолюцию «О мерах по усилению антирелигиозной борьбы», которая положила начало широкой антирелигиозной кампании, продолжавшейся в течение всего десятилетия. Против лам и буддийского духовенства вводились повышенные налоги, они лишались избирательных и многих гражданских прав, их имущество конфисковывалось. Закрывались храмы, дацаны, молельные дома. Каждый из монастырей, фактически исполнявших роль местных культурных центров, имел библиотеки, насчитывавшие десятки тысяч книг. Редчайшие коллекции выбрасывались на улицу, уничтожались тексты, хранившиеся здесь веками.
Бурятские ученые и сотрудники Академии наук пытались спасти хотя бы часть библиотек из разоряемых дацанов, даже в разгар репрессий 1937 года. Тысячами книг заполняли грузовики и целые вагоны и в спешке вывозили. Часть рукописей и ксилографов была привезена в республиканские учреждения науки и культуры, многие отправлены в Ленинград, где они до сих пор хранятся в одном из крупнейших фондов Института восточных рукописей РАН.
После образования Сибирского отделения РАН в Улан-Удэ был создан Бурятский комплексный научно-исследовательский институт СО АН СССР, который проводил исследования в области буддологии — одном из новых направлений, заявленных молодым Отделением. Тогда произошло объединение книжных фондов учреждений культуры и науки разных республик, и в результате основная масса книг на тибетском и монгольском языках сконцентрировалась в ЦВРК. В то же время в институт начали приглашать на работу буддийских монахов, репрессированных в 1930-х годах и реабилитированных к концу 1950-х. Эти люди занялись структуризацией и систематизацией обширного фонда, выделяя тематические коллекции по правилам традиционной тибетской литературы. Так, например, они сформировали многотомные комплекты тибетского канона: Ганчжур и Данчжур.
Одна из рукописей Центра восточных рукописей и ксилографов ИМБТ СО РАН
Самая старая книга фонда датируется концом XVI — началом XVII века — это религиозное сочинение «Сундуй», сборник сутр и мантр, переложенных на тибетский с санскрита. Основной же массив книг, привезенных со всей Внутренней Азии, относится к XVIII—XIX векам. Именно в этот период в тибетском княжестве Чонэ начали делать первые ксилографии для Ганчжура. Ксилография — самая ранняя технология печати, появившаяся в странах Дальнего Востока в VII—VIII веках нашей эры. Изображение вырезалось на деревянной доске, на полученный рельеф наносилась краска, затем накладывался лист бумаги, по которому прокатывали валиком, и получался отпечаток страницы. До начала XX века именно ксилография была основным способом печати в странах Восточной и Центральной Азии, а в Тибете ксилографы создавались вплоть до середины века.
В ЦВРК сохраняют не только богатое наследие восточной письменности, но и культурные традиции. Центр является одним из самых крупных архивов, которые продолжают традиционную организацию книгохранения в формате потхи. Издавна книги находились в библиотеках монастырей, отапливаемых лишь дыханием монахов. Коллекции заворачивались в двухслойную хлопчатобумажную и шелковую оболочку, что обеспечивало лучшую целостность рукописей в условиях резких перепадов влажности и температуры. Такая книга-потхи представляла собой стопу листов бумаги, которая вкладывалась между двумя досками, соединялась шнуром и оборачивалась тканью. На свертке размещался ярлычок с кратким библиографическим описанием сочинения. В таком виде с документами работают исследователи, среди которых как востоковеды, переводчики с тибетского и монгольского языков ИМБТ СО РАН, так и ученые из Института общей и экспериментальной биологии СО РАН (Улан-Удэ). Несмотря на бережное хранение, хрупкие рукописи трехсотлетнего возраста требуют современных методов анализа и обработки.
«Отобразить восточную графику в научном издании очень сложно, — заметил руководитель Центра восточных рукописей и ксилографов кандидат физико-математических наук Олег Сергеевич Ринчинов. — Юникод для тибетской и монгольской письменности появился лишь около десяти лет назад. Чаще всего научные публикации на этих языках издаются в виде транслитераций — переложения тибетских символов в систему латинского алфавита. В настоящее время таким образом переведена лишь очень малая доля всего фонда».
Идея по цифровизации архива восточных книг возникла в июне 2021 года во время визита академиков Александра Михайловича Сергеева и Валентина Николаевича Пармона, которые посчитали фонд отличным объектом для искусственного интеллекта. Уже вскоре после этого исполнением проекта занялся Центр искусственного интеллекта МТС, а технологическим партнером стал Высший колледж информатики Новосибирского государственного университета. Так ученые и программисты начали совместную работу над созданием системы распознавания тибетских символов путем последовательной оцифровки и расшифровки коллекции ЦВРК. Конечная цель проекта — получение индексируемого цифрового корпуса с возможностью поиска по включенным в него электронным текстам.
«Мы отбираем определенные сочинения, затем сканируем, вручную вводим их в электронную форму и с помощью специального программного обеспечения создаем дата-сеты, представляющие собой изображения и привязанные к ним текстовые аннотации, — объяснил Олег Ринчинов. — Глубокое обучение искусственного интеллекта осуществляется именно с помощью этих информационных блоков. Для качественного результата необходимы тысячи дата-сетов. В рамках пилотного проекта было оцифровано 500 страниц текста, на основании которых была создана группа дата-сетов. Результат дешифровки показал точность в 94 % распознаваемых символов, однако с учетом всех особенностей тибетской письменности правильность текстов в данный момент оценивается примерно в 80 %».
В Центре восточных рукописей и ксилографов ИМБТ СО РАН
Сотрудникам ЦВРК предстоит расшифровать еще как минимум 1 000 страниц. Каждый процент точности распознавания требует экспоненциального роста данных для обучения. Если для достигнутого уровня хватило 500 страниц, то для совершенствования дальнейшего результата может потребоваться в два или три раза больше текстового объема. Разработкой системы обучения искусственного интеллекта занимается новосибирская команда, обслуживающая серверы суперкомпьютеров НГУ.
«В данном случае оптическое распознавание символов — задача не из легких, ведь в тибетской письменности не десятки и не сотни лексем, — рассказал директор Высшего колледжа информатики НГУ кандидат химических наук Алексей Григорьевич Окунев.— Нейронные сети отлично справляются с подобными объемами информации, однако основная сложность в том, что в тибетской версии санскрита около 2 000 слогов, тогда как для обучения нейронной сети есть только 50 000 лексических единиц. Кроме того, нейронным сетям для обучения необходимы множества примеров разнообразных текстов. Например, в случае с английским языком проблемы вариативности бы не возникло, но у нас сейчас есть лишь по 50 лексем на каждый слог, что очень мало для машинного обучения. Нам предстоит проанализировать — где модель работает хуже, и в этих точках добавить примеры, чтобы получить улучшение в процентах».
Сотрудники ЦВРК планируют закончить работающий прототип системы распознавания символов тибетского языка к концу 2022 года. В перспективе предполагается создать полноценный текстовый корпус — особым образом организованные данные, с помощью которых можно производить всевозможные исследования: тибетологические, филологические, исторические и другие. Однако на этом ученые не останавливаются. Параллельно запускается работа над системой распознавания монгольской письменности. Вероятно, более сложная графическая система потребует больше времени и ресурсов, но опыт сотрудничества с новосибирскими коллегами наверняка поможет перевернуть и эту страницу в истории Востока.
Глеб Сегеда
Фото Юлии Поздняковой