Алгоритмы для пушкиниста

В Институте вычислительных технологий СО РАН создают систему, берущую на себя многие операции по классификации и сравнительному анализу текстов, в том числе художественных.

 
 
Ученые-литературоведы не только читают, но и считают: количество слогов, слов и строк, повторов тех или иных выражений, оборотов, лексических конструкций, образов и тому подобного. Точно такие же действия необходимы для анализа любых иных текстов, будь то государственные документы или контент социальных сетей. Рисовать столбики на полях книг или вручную заполнять таблицы — занятие трудоемкое и утомительное, поэтому идея задействовать компьютерные технологии родилась едва ли не одновременно с самими компьютерами. В Институте вычислительных технологий СО РАН решили научить машину распознавать отдельные элементы — слова и предложения, их части и сочетания, ударения, стихотворные размеры и так далее — чтобы находить закономерности, не всегда заметные человеку. Это может быть полезно для изучающих поэзию литературоведов, для подготовки студентов-филологов, а в перспективе — для более широкого применения. 
 

У кого больше рифм к слову «любовь» — у Пушкина, Лермонтова или Блока? Яндекс не ответит, исследователь потратит несколько недель, специализированная компьютерная система — считанные секунды.

 
Во второй половине 1990-х годов создатель внутренней информационной сети СО РАН академик Юрий Иванович Шокин пригласил в новосибирский Академгородок из Красноярска профессора (сегодня члена-корреспондента РАН) Анатолия Михайловича Федотова, в круг научных интересов которого входили алгоритмы информационного поиска. Этот ученый заинтересовался задачей разработки методов анализа информации на естественных (то есть человеческих, а не машинных) языках. Сегодня подходы и заделы А. М. Федотова в ИВТ СО РАН реализует команда специалистов (в том числе студентов и аспирантов) под руководством доктора технических наук Владимира Борисовича Барахнина и кандидата филологических наук Ольги Юрьевны Кожемякиной — ученого-пушкиниста, защитившей диссертацию под руководством известного литературоведа доктора филологических наук, профессора Виктора Георгиевича Одинокова. Неудивительно, что структура и ритмика стиха стали первоначальным объектом комплексного анализа. 
 
Ольга Кожемякина«Для исследователя интересная задача — сравнивать стихотворную технику разных авторов или ее изменения в творчестве одного и того же поэта, — поделилась Ольга Кожемякина. — В рамках нашего проекта уже построена информационная модель, на ее основе организована работа команды, созданы и реализованы алгоритмы распознавания и классификации. В настоящее время нами реализован интерфейс филолога, воспринимающий определенный круг запросов для поиска и сравнения текстов и затем выдающий достаточно точный результат». О. Ю. Кожемякина пояснила, что речь идет о больших массивах данных, то есть полных корпусах творческого наследия многих авторов за все годы их жизни. «Мы обучали нашу систему на наследии пушкинской Болдинской осени, — рассказала Ольга Юрьевна. — Теперь же машина может оперировать всеми произведениями этого или другого поэта за долгие годы». 
 
Оказалось, что можно с помощью специальных алгоритмов загрузить в машину жанровые и стилистические особенности произведений, их структуру, научить информационную систему понимать смыслы и образы, классифицировать и группировать тексты по множеству параметров, которые еще лет пять назад казались понятными только человеческому мозгу. «Литературоведение как наука учитывает не только качественные, но и количественные характеристики произведений. Когда я писала диссертацию, — вспомнила Ольга Кожемякина, — то просматривала множество пушкинских стихов, вручную отмечая в них то или иное, чтобы потом сделать подсчеты и выводы на их основании. Сегодня стало ясно, что эту черновую работу можно спокойно препоручить машине». 
 
А какую именно? Найдет ли компьютер рифму, увидит ли ударения, если они не проставлены значками? Определит ли смысл омонимов, например, «мир» как «миръ» и «мир» как «мiръ»? Владимир Барахнин объясняет: «В базе данных нашей системы есть словарь академика Андрея Анатольевича Зализняка с ударениями. Бывают, разумеется, омографы — слова, совпадающие в своем написании, но имеющие разное звучание и значение: мука́ — му́ка, за́мок — замо́к и так далее. Даже в первой строке “Евгения Онегина” два слова акцентуируются неоднозначно: “Мой дядя самых чЕстнЫх прАвИл”. В таких случаях правильная акцентуация восстанавливается по аналогии — из строк без вариантов». То же самое с многозначными словами. «Разрабатываемый нами модуль анализа смысла смотрит (на основании методов машинного обучения) на окружение омографа, — рассказал Владимир Борисович. — Несколько упрощенно: если рядом есть “борьба”, “война” и т. п., то это антоним войны, а если “пир”, “пустить”, “крещеный” — то весь белый свет». 
 
Владимир Барахнин«Мы пока не задумывались над именем собственным нашего продукта, тем более о создании его товарного знака, — заметил Владимир Барахнин. — Наиболее точным названием можно считать такое: компьютерный обработчик текстов». Какие задачи он может решать сегодня? Ученый вспомнил, что в 1960-х годах известный филолог Кирилл Фёдорович Тарановский высказал предположение о связи формальных характеристик стиха с его жанром. Например, лермонтовское «Выхожу один я на дорогу…» написано пятистопным хореем. Затем «Вот бреду я вдоль большой дороги…» Тютчева, «Вот я выхожу, открытый взорам…» Блока, «Гул затих. Я вышел на подмостки» Пастернака… Раздумья о жизненном выборе от лица, заметим, движущегося героя. В то же время пятистопный хорей часто используется для создания бодрых песен (например, «Широка страна моя родная», «Три танкиста», «Катюша» и т. д.). Компьютерный обработчик текстов способен определить некоторые закономерности, в том числе чисто статистические, присущие применению пятистопного хорея в философской лирике и массовом песенном жанре. 
 
Ольга Кожемякина и Владимир Барахнин пояснили, что система, созданная и совершенствуемая их командой, доступна в онлайн-режиме, но принципиально не наделена функцией самостоятельного поиска текстов, а оперирует только теми, которые в нее заложены. «Да, она изначально так и задумана, — пояснила Ольга Кожемякина. — В интернете слишком много неточностей, а то и откровенных фейков. У нас же тексты загружаются из академических собраний, наиболее выверенные, со стопроцентно подтвержденным авторством и датировками. Общедоступный поисковик и инструмент исследователя — это абсолютно разные вещи».
 
«То, чего мы добились сегодня, уже может применяться на практике, — считает Владимир Барахнин. — В России немало филологов-стиховедов, кроме того, мы сотрудничаем с коллегами из Казахстана по анализу текстов на языке этой страны. Интересно попробовать нашу систему и в подготовке студентов филологических факультетов, изучающих структуру стиха». «Созданный нами интерфейс весьма нагляден, — добавила О. Кожемякина. — Он отображает все основные элементы и характеристики поэтической строки и произведения в целом: рифмы и их конструкции, размеры, ритмику и многое другое». Система автоматического анализа текстов умеет верно трансформировать дореформенную русскую орфографию в современную. Ученые ИВТ считают вполне вероятным в некоторой перспективе распространить свой проект и на решение проблемы максимально адекватного машинного перевода (до которого пока что далеко автоматизированным сервисам Google и других систем). Но универсальный киберфилолог — это пока нечто из области фантастики. 
 
«Мы не претендуем сегодня на решение таких задач, как определение авторства, подлинности и так далее, а также не планируем перенос возможностей нашей системы на сравнительное языкознание, — уточнила Ольга Кожемякина. — Наша цель немного иная: исследовать применительно к русской поэтической традиции связь метро-ритмических и строфических характеристик текстов с их жанрово-стилевыми особенностями. И тем самым подтвердить или опровергнуть (что менее вероятно) гипотезу Тарановского о влиянии первого на второе». 
 
Сегодняшнее состояние системы — бета-версия. Следующим этапом исследователи видят распространение ее аналитических возможностей на образы (в литературном понимании этого слова). «Образ в филологии — объект, традиционно определяемый и описываемый очень субъективно, — отметила О. Кожемякина. — Но если машину можно научить классифицировать тексты по жанрам и стилям, то почему бы не перейти на новый, более сложный и тонкий уровень? Это красивая и интересная задача — создать такие алгоритмы для анализа, которые позволят увидеть в литературном наследии взаимосвязи и закономерности, о которых мы раньше не догадывались». 
 
Андрей Соболевский
 
Фото автора, иллюстрация Анастасии Голышевой