Новосибирские исследователи создали нейросетевой продукт, анализирующий репутацию в Интернете

 
Посткризисная эпоха вынуждает потребителя рациональнее относиться к трате денег — теперь перед покупкой люди обращаются к отзывам в Интернете. В связи с этим фирмы уделяют большое внимание комментариям и упоминаниям о себе во Всемирной сети, но просматривать бесконечные массивы информации вручную долго и затратно. Новосибирские исследователи разработали нейросетевой продукт Soroka, который самостоятельно анализирует репутацию человека или организации. 
 
Принцип работы «умного» продукта прост: нужно указать название компании (или имя человека) и список веб-адресов, с которых начнется анализ контента. Система с помощью нейронных сетей ищет все упоминания заданной компании или человека, затем оценивает тональность контекста для каждого из найденных упоминаний. В результате пользователь получает так называемый «коэффициент сороки» — процент положительных, негативных и нейтральных упоминаний. Руководствуясь этими данными, можно понять, насколько хорошо или плохо говорят о компании.
 
Soroka состоит из двух компонентов: модуля распознавания именованных сущностей (NER, или Named Entity Recognition), который выполняет поиск названия компании или имени человека в тексте веб-сайта, и модуля анализа тональность (Sentiment Analysis), оценивающего эмоциональный заряд текста.
 
Для решения задачи NER разработчики использовали предварительно обученную нейросеть из программной библиотеки SpaCy (библиотека, в которой размещены последние достижения в области анализа текста на естественном языке). Модуль анализа тональности специалисты сделали самостоятельно, основываясь на дистрибутивной гипотезе. Суть подхода заключается в том, что в качестве признаков слов используются векторы. Каждому слову присваивается свой контекстный вектор, несколько векторов создают векторное пространство, а семантическая близость слов определяется косинусами расстояния между векторами. Например, косинусное расстояние между векторами слов «король» и «королева» маленькое, а между «король» и «плотник» — большое.
 
Помимо алгоритмов распознавания имени и оценки, нужен материал, на котором нейросеть сможет обучиться — языковой корпус. Исследователи использовали размеченные твиты — набор публикаций в «Твиттере», разделенных на три эмоциональные отметки: нейтральные, положительные или отрицательные. Еще одним «тренажером» для нейросети был языковой корпус, разработанный аспиранткой лаборатории искусственного интеллекта Института систем информатики им. А.П. Ершова СО РАН Юлией Владимировной Рубцовой.
 
Soroka ориентирована на новостные сайты, поэтому с применением нейронных сетей, обученных на твитах, возникли некоторые проблемы. Новостные тексты и твиты имеют разные жанровые особенности: так, в твитах больше экспрессивной лексики, используются эмодзи (изображения смайликов). Поэтому при обучении новой версии сервиса использован корпус новостных текстов. Создатели при этом перешли от анализа отдельных предложений к анализу целых абзацев, что, по мнению авторов, лучше позволяет уловить тонкую семантику типа сарказма.
 
«Каждый модуль, который мы делали, оценивали на корпусах текстов с помощью перекрестной проверки. То есть разделяем корпус на три непересекающиеся части и проводим эксперименты. В каждом эксперименте две части используются для обучения, одна для финального тестирования и оценки качества обучения алгоритма, затем фрагменты меняются местами», — объясняет преподаватель кафедры фундаментальной и прикладной лингвистики Гуманитарного института НГУ Иван Юрьевич Бондаренко. 
 
История машинного обучения началась еще в 1940-х годах, когда двое американских ученых — физиолог Уоррен МакКаллок и логик Уолтер Питтс предложили первую модель нейросети: они хотели создать имитацию нервной системы человека. Современные нейронные сети, как правило, далеки от этой задачи, это математические аппараты, которые заменяют сложные функции с помощью суперпозиции простых. Тем не менее на сегодняшний день нейросетевые алгоритмы являются одними из самых эффективных для решения задач, связанных с обработкой текстов, изображений и звуковых данных.
 
Мария Вьюн, студентка ФЖ НГУ