Вычисляй и властвуй

Не секрет, что профиль пользователя в социальных сетях может рассказать многое о предпочтениях его владельца. Этим активно пользуются маркетологи и PR-специалисты. Но как быть, если нужно собрать сведения сразу о тысячах или сотнях тысяч обителей интернета? И как разобраться в постоянно пополняемых и бесконечных массивах разрозненной информации во всемирной паутине? Ответ на этот вопрос знает аспирант лаборатории искусственного интеллекта Института систем информатики им. А.П. Ершова СО РАН Юлия Владимировна Рубцова, которая занимается анализом и тоновой классификацией отзывов в сети.

 
— Обратите внимание на ресурс Flamp, где содержатся всевозможные отзывы, — начинает с примера Юлия Рубцова. — Есть люди, которые просто не могут не поставить пять звёздочек какой-либо организации или продукту. Казалось бы, пять звёзд – считай, высшая оценка! Но при этом комментарии потребителей негативные. То есть человек ставит максимальный балл и пишет: «Мне в целом всё понравилось, но…» и это самое «но» продолжается списком из четырёх больших абзацев. Тут становится ясно, что он в действительности думает об оцениваемом. 
 
Такой парадокс может вычислить не только проницательный человек. Оказывается, реальное мнение способны выявлять и машины. Здесь вступает в дело компьютерная лингвистика.  
 
— Одна из особенностей разработанной системы: когда пропускаешь через классификатор тонны отзывов, она показывает реальное мнение человека. Хоть клиент высоко оценивает некую услугу, в это же время он оставляет комментарий из разряда «Ну, вы знаете, я не хочу показаться грубым, поэтому напишу, что в целом всё понравилось, а дальше расскажу как есть на самом деле». 
 
Чтобы понять пользовательское поведение с точки зрения не только маркетинга, но и науки, исследователь после окончания механико-математического факультета Новосибирского государственного университета пошла в аспирантуру, где теперь, кроме прочего, занимается обработкой и интерпретацией данных соцсетей. 
 
— Пользователи могут открыто высказывать своё мнение в сетевых сообществах, на сайтах отзывов, тем самым, оказывая влияние на выбор своих друзей и подписчиков. Интересный факт: согласно статистике, люди склонны доверять больше анонимам в интернете, чем той же самой рекламе. Это значит, если какой-то анонимус скажет что некий продукт хороший, человек поверит ему с большей вероятностью, так как не сочтёт это откровенными и неприкрытыми пропагандой или спамом.
 
Такие наблюдения о манипуляции мнениями интересны не только специалистам, занимающимся репутационным маркетингом, бизнесменам, но и политологам, социологам, историкам. 
 

— Ещё один момент, который можно решить с помощью того, чем я занимаюсь: анализ информационных вбросов. Они делаются, чтобы в короткие сроки сформировать общественное мнение относительно какого-то объекта или субъекта. С помощью алгоритмов машинного обучения можно отслеживать, когда были вбросы и разоблачать их. Обычно происходит некое событие, начинается пик его обсуждения, и со временем шум естественно спадает. Например, крушение малазийского Боинга люди обсуждали неделю. Результат голосования на выборах — про это могут говорить два-три дня. И на графиках легко увидеть, был ли вброс. Стандартное поведение графика – равномерно затухаюший интерес к теме. При вбросе нет «плавных переходов»: резко начали дискутировать о предмете, резко закончили, как по команде, — утверждает учёный.

 
Сама Юлия занимается в основном исследованием комментариев в Twitter.    
 
— В этом микроблоге можно проследить, например, как менялось отношение пользователей к украинским событиям. В начале 2014 года зашкаливали в повестке две темы — олимпиада в Сочи и Украина. Как ни странно, все сообщения об Украине до февраля 2014 были сплошь позитивного характера, из разряда: «Молодцы, вы отстаиваете свою свободу! Вот бы нам так!». Уже весной пошёл резкий негатив. У меня есть две коллекции сообщений, которые я собрала в разные промежутки времени с интервалом в полгода — они отражали колоссальную перемену мнения по одному и тому же событию. Точно также меняется отношение к людям: подобная ситуация была с обсуждением произошедшего на Болотной площади.
 

У Юлии Рубцовой есть собрания постов и по другим темам — корпус коротких сообщений, состоящий из более 17 миллионов текстов, выложен в открытый доступ для исследовательских целей. На основе наработок новосибирского учёного в этом году был защищён диплом в МГУ. Коллеги из ВШЭ также интересовались набором данных для использования в своих работах.

 
— Так как на сегодняшний день существует очень мало публичных коллекций отзывов на нашем языке, которые можно было бы использовать для решения задач тоновой классификации комментариев на три класса («положительные», «отрицательные», «нейтральные»), и не было ни одной русскоязычной публичной коллекции постов микроблогов, я решила подготовить свой набор текстов и сделать его открытым. С помощью этой коллекции коллеги смогут натренировать собственный классификатор — научить его распределять сообщения на классы или выделять темы и многое другое. 
 
В этом году молодой учёный получила грант мэрии Новосибирска на исследования в области мониторинга и извлечения данных из социальных медиа и последующий сентимент анализ. Исследователь вместе с единомышленниками не останавливаются на достигнутом. Сейчас они готовят новые коллекции для второго цикла соревнований классификаторов по тональности SentiRuEval. По словам Юлии Рубцовой, поучаствовать в разметке сообщений и внести свой вклад в развитие компьютерной лингвистики в России может каждый. 
 
Марина Москаленко
 
Фото: анонс  — из открытых источников, 1,2 — предоставлены Юлией Рубцовой