Сегодня - 24.08.2019

Цифра говорит

02 апреля 2018

Вы когда-нибудь пытались рассматривать тексты как случайные процессы и изучать их с помощью теории вероятностей? Ученые из Новосибирского государственного технического университета разработали математические алгоритмы анализа написанного, с помощью которых можно выявлять плагиат, исследовать древние рукописи, попытаться устанавливать контакт с внеземными цивилизациями и сделать загадку «Тихого Дона» еще загадочнее.

«Мне всё время было интересно, как устроены тексты, можно ли их описывать какими-то математическими методами. Когда я стал изучать теорию вероятностей, то понял, что текст нужно рассматривать как случайный процесс. Здесь используется простейшая модель, подразумевающая, что каждое последующее слово употребляется, независимо от предыдущих, с некоторыми вероятностями. Это не подходит для объяснения смысла текста, но зато хорошо описывает те закономерности, которые в нем наблюдаются», — рассказывает доцент кафедры высшей математики НГТУ кандидат физико-математических наук Артём Павлович Ковалевский.
 
Артём Ковалевский
 
Для начала нужно найти критерий, который является массовым. То есть что-то должно присутствовать в тексте и при этом не контролироваться на сознательном уровне. Автор может писать рассказ, все слова в котором начинаются на букву «м», или вести повествование от лица то одного персонажа, то другого — это как раз пример тех характеристик текста, которые внедряются сознательно. Здесь же нужна какая-то неконтролируемая статистика, которая называется авторским инвариантом.
 
Ее нашли инженер Тимофей Григорьевич Фоменко и филолог Валентина Поликарповна Фоменко (родители математика Анатолия Фоменко, родоначальника лженауки «Новая Хронология»). Они придумали, что надо считать служебные слова: частицы, предлоги и союзы. Количественное содержание этих служебных слов у каждого автора разное и обычно сознательно не контролируется, сохраняется как авторский инвариант писателя. Все исследование супруги Фоменко делали вручную, брали тома сочинений, анализировали тексты, считали там слова. 
 
«Затем пришла компьютерная эпоха, появилась возможность обрабатывать огромные объемы текстов, чем мы с моими студентами (Натальей Станиславовной Закревской и другими) и занялись. Мы описали это явление как случайный процесс, доказали соответствующие теоремы и создали специальную программу», — говорит Артём Ковалевский.
 
Алгоритм позволяет определять, действительно ли текст написал один автор или их было несколько. Ведь сейчас из разных «отрезков» чужих текстов клеятся не только рефераты студентов, но и некоторые дипломные работы, а иногда — и кандидатские, докторские диссертации. По признаку количества служебных слов можно отслеживать границы текста и выделять эти разнородные «куски».
 
Однако применять такие алгоритмы можно не только для отслеживания плагиата. Еще супруги Фоменко проанализировали произведения Михаила Шолохова и обнаружили, что там однородность «ломается». То есть с определенного момента в тексте начинает встречаться совершенно другое число служебных слов. Когда полученные результаты проверили новосибирские исследователи, оказалось, что это происходит не только с «Тихим Доном», но и с «Поднятой целиной».
 
«Когда я пробовал изучить этот эффект, понять, что же происходит с «Поднятой целиной» в середине, я перечитал книгу и выяснил, что читать ее с момента «слома» дальше стало просто чудовищно неинтересно. Писатель дописывал ее спустя много лет, и у него сильно изменился стиль, — говорит ученый. — Рукописи обеих этих книг найдены, вроде бы по ним доказали, что все писал один человек. То ли Шолохов сам так изменился, то ли на раннем этапе творчества использовал тексты неизвестного автора — мы не знаем. Но у него наблюдается такое изменение этих характеристик, какого не было ни у одного из других авторов».
 
Следующий способ, разработанный новосибирскими исследователями (он действует уже на маленьких текстах), — анализ числа разных слов. Например, человек пишет всю жизнь про математику. Казалось бы, вся суть его открытия сосредоточена в формулах, лексические единицы здесь много не значат, но чем дальше, тем больше он использует новых слов. Кроме того, в любом тексте, если только он не создан искусственно, всегда очень много лексических единиц, которые встретились только один раз. 
 
«Мы с Натальей Закревской стали строить математическую модель, потом произошел перерыв, я не знал, как двигаться дальше. В 2014 году нам с Михаилом Георгиевичем Чебуниным удалось доказать теорему, описывающую, как должно себя вести это число разных слов с ростом объема текста», — говорит Артём Ковалевский.
 
Фрагмент манускрипта Войнича
 
Если откладывать число разных слов по длине текста, то получается возрастающая линия. Это характеризует скорость увеличения словаря автора с ростом объема написанного. Если предположить, что у кого-то словарь ограничен (чего на самом деле не бывает), то в какой-то момент эта кривая выходила бы на насыщение и дальше оставалась бы постоянной. А если соединить два текста разных авторов, получилась бы изломанная кривая: она растет сначала с одной скоростью, а потом с другой. Это опять же дает способ проверки на плагиат. Алгоритм сразу улавливает излом, математически его оценивает и обозначает, что здесь склеены разные тексты.
 
«Если «Антиплагиат» работает как поисковая система и сравнивает текст с уже известными, то мы можем, не зная источников, определить, что написанное состоит из нескольких разнородных частей», — говорит ученый.
 
С помощью этого подхода было бы интересно анализировать и различные древние манускрипты. Например, рукопись Войнича — известное произведение, которое никто не может расшифровать. Можно посмотреть, удовлетворяет ли оно требованиям к росту словаря. Для этого не надо понимать, что именно написано, нужно всего лишь видеть, одинаковые это лексические единицы или разные, появилось новое слово или нет.
 

Манускрипт Войнича, — иллюстрированный кодекс, написанный, предположительно, в первой половине XV века неизвестным автором на неизвестном языке с использованием неизвестного алфавита. Рукопись хранится в собрании библиотеки Йельского университета (США).

 
Гипотетически такую систему можно использовать и при приеме сигналов из космоса. Предположим, что мы хотим установить контакт с внеземными цивилизациями. Нам интересны прежде всего те из них, которые умеют разговаривать словами. Они, как и мы, должны иметь бесконечное число слов, и, соответственно, рост словаря с возрастанием длины текста должен подчиняться той же закономерности. Тогда мы сможем выделять их сигнал на фоне множества разных шумов, издаваемых другими, неразумными объектами. 
 
«Разумеется, эта система еще несовершенна, ее можно и нужно улучшать. Мы хотим построить такую модель, которая объяснит всё сразу: и число разных слов, и число слов, встретившихся один раз, то есть все совокупности статистик текста, которые мы наблюдаем, — говорит Артём Ковалевский. — Кроме того, хочется сделать большое исследование на разных языках. Я думаю, что на маленьких текстах (порядка одной-двух тысяч слов) всё будет хорошо работать, а вот в более длинных могут появиться какие-то особенности, и это дополнительно надо изучать. Мне хотелось бы пригласить лингвистов, математиков, программистов принять участие в этом исследовании».
 
Диана Хомякова
 
Фото предоставлено исследователем (1) и из открытых источников (2)
 
Ваша оценка: Нет Средняя: 4.8 (8 votes)
Поделись с друзьями: 
 

comments powered by HyperComments

Система Orphus