В Новосибирском государственном университете появилась новая специальность – «Фундаментальная и прикладная лингвистика». По сути, это математическая лингвистика. Она ориентирована на использование компьютерных программ для моделирования функций языка в тех или иных ситуациях, а также автоматизированную обработку письменного и устного текста. О перспективах и сути профессии компьютерного лингвиста рассказала куратор этого направления, старший научный сотрудник Института математики СО РАН им. С. Л. Соболева доктор филологических наук Мария Кирилловна Тимофеева.
- Почему эта специальность открылась в НГУ именно сейчас?
- Причин можно назвать несколько, во-первых, действительно, существует потребность в таких специалистах, во-вторых, в НГУ до 1976 года работало отделение математической лингвистики, то есть имеется определенный опыт подготовки профессионалов данного профиля. И третья причина: НГУ получил статус научно-исследовательского университета, и в связи с этим планируется открытие новых специальностей. Мы как раз успели вовремя подготовить документы и открыть новое направление.
- Какие дисциплины будут преподаваться студентам?
- Уже по вступительным испытаниям можно понять направленность обучения. Абитуриентам необходимо сдать иностранный язык, русский язык, математику. Что касается учебных предметов, то они распадаются на два цикла: математический и лингвистический. Математический цикл – достаточно серьезный, он будет включать алгебру, математический анализ, математическую логику, информатику и программирование. Математические курсы будут читаться преподавателями механико-метематического факультета. Второй цикл – лингвистический. Сюда входят: введение в языкознание, общее языкознание, современный русский язык, латинский язык, иностранный язык. Плюс планируется еще ряд специальных курсов и в той, и в другой области.
- В этом году уже будет набор?
- Да. Есть 6 бюджетных мест. Я надеюсь, что будет человек 10, это – оптимальный вариант группы.
- Расскажите, пожалуйста, в чем суть данной специальности?
- Я перечислю те области, где могут работать выпускники. Во-первых, создание компьютерных систем, имитирующих разные виды языковой деятельности человека, например, автоматический перевод, семантический поиск информации, автоматическая обработка текстов, анализ и синтез текста, как устного, так и письменного, автоматическое реферирование. Во-вторых, теоретические исследования: математические описания различных аспектов языка, в конечном итоге имеющие прикладную направленность, ориентированные на решение тех задач, которые я перечислила в начале. Третье направление – это создание различных компьютерных систем, электронных коллекций, облегчающих работу лингвиста. Четвертое направление – различного рода лингвистическая экспертиза. Например, экспертиза рекламных текстов на предмет выполнения ими основной функции (рекламной) и соответствия юридическим нормам, существующим в данной области.
- Какие разработки по решению таких задач уже существуют?
- Разработок достаточно много. Например, есть системы автоматического анализа текста, они, конечно, не совершенны, но по сравнению с теми системами, которые были в 1950-х годах, прогресс большой. В новосибирском научном центре занимаются прикладными вопросами языкознания, разрабатываются программные системы, ориентированные на естественный язык. Например, в Институте математики создаются дешифровочные модели языка. Очень кратко их можно охарактеризовать так: это программы, которые на входе получают текст естественного языка, а на выходе – определенные закономерности, обнаруженные в этом тексте: синтаксические закономерности, различные комбинаторные характеристики и так далее. В основе каждого такого программного продукта лежит математическая модель некоторого аспекта языка, ориентированная на решение определенной, конкретной задачи.
- Насколько допустимо соотносить математическую точность и достаточно живой и подвижный по своей сути язык?
- Даже если мы возьмем традиционные подходы к описанию языка, то они достаточно формальны: например, описания грамматики. Нельзя сказать, что они размыты. Когда мы переходим в область семантики, прагматики, то там, конечно, сложнее, но сейчас есть разработки и в этой сфере. Все ведь зависит от того, что мы хотим. Если мы хотим точно описать какой-то аспект и знаем, зачем нам это надо, то у нас есть определенные критерии, по которым мы судим об адекватности результата. Можно провести такую аналогию. Знания человека – это ведь тоже трудно формализуемая область, тем не менее, в школах ставят оценки. Появилась такая потребность, выработали способы оценивания знаний. При построении формального описания того или иного аспекта языка обычно рассматриваются различные варианты реализации этого аспекта в речи, делается попытка их классификации, затем для выделенных классов строится их описание, ориентированное на решение интересующей нас задачи.
- Автоматические переводчики текстов – это тоже направление математической лингвистики?
- Это одно из основных направлений. Автоматические переводчики существуют разные, и они могут работать на разных принципах. Может быть, например, поэтапный перевод. Текст, который вы высказали, переводится на определённый стандартный формальный язык, «понятный» компьютеру. В ходе этого распознаются грамматические признаки слов, затем строится синтаксическая структура текста. Так поэтапно текст одного языка сводится к определённому внутреннему машинному представлению, затем, тоже поэтапно, это машинное представление разворачивается в текст другого языка.
- То есть в компьютер нужно сначала ввести все эти схемы?
- Да, нужен словарь, нужна система грамматических форм, нужны межъязыковые соответствия, как между структурами, так и между лексическими средствами рассматриваемых языков.
- Тем не менее, машинный перевод сейчас не совершенен и полностью не может заменить человека.
- Да, действительно, при переводе возникает еще много ошибок. Для повышения качества перевода его иногда осуществляют в интерактивном режиме. Переход от одного этапа представления текста к другому, более машинно-ориентированному, может предполагать возможность возвращения к более ранним этапам перевода данного текста. Допустим, компьютер предлагает такой вариант перевода, в котором имеется некая нестыковка. В этом случае компьютер может вернуться к более ранним этапам перевода и произвести анализ того же текста иным способом. То есть перевод – это не обязательно линейный процесс. Он может быть организован циклически.
- А в переводчиках Google используется такой же механизм?
- Хороший вопрос. Автоматический перевод сейчас стал более разнообразным по своим алгоритмам. То, что используется в Google, – это так называемый статистический перевод. А то, что я описала, это - «перевод по правилам», в котором существенно именно использование лингвистических знаний.
- Какие переводчики работают «по правилам»?
- Существует система автоматического перевода ЭТАП, основанная на очень интересных лингвистических теориях. Руководитель данного проекта – известный лингвист Юрий Дереникович Апресян. Но эта система пока не применяется широко из-за того, что она довольно сложна по своему устройству. Переводчик Google работает с большим количеством языков, в ЭТАПе только два направления перевода: русский-английский и английский-русский. ЭТАП - это скорее исследовательская, чем промышленная система, но есть и отечественная промышленная система перевода, с которой вы, наверное, сталкивались, PROMT.
- Судя по тому, насколько широко применяются достижения в этой области, такие специалисты будут широко востребованы?
- Да, действительно, подготовка кадров в этой области позволит решать актуальные на сегодняшний день задачи, связанные с семантическим поиском, автоматической обработкой текста, в том числе и переводом, позволит проводить лингвистические экспертизы. Думаю, выпускники этого направления будут желанными специалистами, как в небольших компаниях, так и гигантах типа Google или Яндекс.
Юлия Позднякова
Фото: COPAH.info, melnikof.at.ua, habrahabr.ru